跳转到主要内容

用于搜索和从GitHub获取代码的工具

项目描述

# bigcode-fetcher

一个用于搜索和从GitHub获取代码的工具。此工具旨在轻松创建用于仓库分析的数据集。

该工具分为两个阶段工作,搜索 使用GitHub API查找仓库,并将结果保存到JSON文件中。 下载 获取JSON文件中的所有仓库。

## 安装

可以通过运行以下命令安装此工具:

` pip install bigcode-fetcher `

或者通过获取此仓库并在此目录中运行

` pip install . `

## 使用

### 搜索 命令

默认情况下,该实用程序会搜索满足以下条件的仓库:

  • 大小在1M到100M之间

  • 星级计数 > 10

  • 非病毒性许可证(MIT、Apache-2.0、MPL-2.0、BSD-2-Clause、BSD-3-Clause、BSD-4-Clause、MS-PL)

并检索按星级数量排序的前100个项目。

为了避免API速率限制,可以使用带有–token CLI参数或带有GITHUB_TOKEN环境变量的访问令牌。

查看帮助以查看所有选项

` bigcode-fetcher search -h `

#### 示例

搜索所有用Java编写的Apache Commons项目

` 创建目录 -p apache-common-projects bigcode-fetcher 搜索 --language Java --user apache --stars '>0' --keyword commons --max-repos 500 -o apache-common-projects/apache-commons.json `

### 下载 命令

此命令将简单地使用 git clone 搜索命令生成的所有 JSON 仓库。

为了减少下载大小,默认情况下仅获取最新修订版(即 git clone –depth 1)。可以通过传递 –full 标志来禁用此功能。

USERNAME/REPO 将在 OUTPUT_DIR/USERNAME/REPO 中获取,其中 OUTPUT_DIR–output 选项设置。

如果目录已存在,则命令将忽略项目,因此多次运行命令是安全的,并建议确保所有仓库都已获取。

查看帮助以获取更多信息

` bigcode-fetcher 下载 -h `

#### 示例

下载上面生成的所有 Apache Commons 项目

` mkdir -p apache-common-projects/repositories bigcode-fetcher 下载 -i apache-common-projects/apache-commons.json -o apache-common-projects/repositories `

项目详情


下载文件

下载适用于您的平台的文件。如果您不确定选择哪个,请了解有关 安装包 的更多信息。

源分布

bigcode-fetcher-0.1.2.tar.gz (5.6 kB 查看哈希值)

上传时间

构建分布

bigcode_fetcher-0.1.2-py3-none-any.whl (9.5 kB 查看哈希值)

上传时间 Python 3

支持者:

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面