用于搜索和从GitHub获取代码的工具
项目描述
# bigcode-fetcher
一个用于搜索和从GitHub获取代码的工具。此工具旨在轻松创建用于仓库分析的数据集。
该工具分为两个阶段工作,搜索 使用GitHub API查找仓库,并将结果保存到JSON文件中。 下载 获取JSON文件中的所有仓库。
## 安装
可以通过运行以下命令安装此工具:
` pip install bigcode-fetcher `
或者通过获取此仓库并在此目录中运行
` pip install . `
。
## 使用
### 搜索 命令
默认情况下,该实用程序会搜索满足以下条件的仓库:
大小在1M到100M之间
星级计数 > 10
非病毒性许可证(MIT、Apache-2.0、MPL-2.0、BSD-2-Clause、BSD-3-Clause、BSD-4-Clause、MS-PL)
并检索按星级数量排序的前100个项目。
为了避免API速率限制,可以使用带有–token CLI参数或带有GITHUB_TOKEN环境变量的访问令牌。
查看帮助以查看所有选项
` bigcode-fetcher search -h `
#### 示例
搜索所有用Java编写的Apache Commons项目
` 创建目录 -p apache-common-projects bigcode-fetcher 搜索 --language Java --user apache --stars '>0' --keyword commons --max-repos 500 -o apache-common-projects/apache-commons.json `
### 下载 命令
此命令将简单地使用 git clone 搜索命令生成的所有 JSON 仓库。
为了减少下载大小,默认情况下仅获取最新修订版(即 git clone –depth 1)。可以通过传递 –full 标志来禁用此功能。
USERNAME/REPO 将在 OUTPUT_DIR/USERNAME/REPO 中获取,其中 OUTPUT_DIR 由 –output 选项设置。
如果目录已存在,则命令将忽略项目,因此多次运行命令是安全的,并建议确保所有仓库都已获取。
查看帮助以获取更多信息
` bigcode-fetcher 下载 -h `
#### 示例
下载上面生成的所有 Apache Commons 项目
` mkdir -p apache-common-projects/repositories bigcode-fetcher 下载 -i apache-common-projects/apache-commons.json -o apache-common-projects/repositories `
项目详情
bigcode-fetcher-0.1.2.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 3c24fd921cc86d3b327ad9ab99faa10eafd40b948368d76f3abff9a40dbf1524 |
|
MD5 | 05f22a4be3b1f401a497cc5eaeb7ca46 |
|
BLAKE2b-256 | 97ba16e36d081a5c03ce21e411a98999375c5eb959d92d6e7405838fbcf9cd76 |
bigcode_fetcher-0.1.2-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 97d929d59d68a39fd59dbd37acd2163357eb3343af2dd19c64ad5ec01cc900ad |
|
MD5 | b38e3b230424bb402307cb7e078f97a0 |
|
BLAKE2b-256 | c3ffb7e4d79f7eb0c02cb1675e3173d109d447ff36f8b2298cd5f50f837d50f2 |