GDCtools:Python和UNIX CLI工具,用于简化与NIH/NCI基因组数据共享的交互。
项目描述
# gdctools
Python和UNIX CLI工具,用于简化从[NIH/NCI基因组数据共享](https://gdc.cancer.gov/)搜索和检索开放获取数据,并自动化大多数数据驱动型科学项目中常见的任务。有关更多信息和方法示例,请参阅[pictorial overview](https://docs.google.com/viewer?url=https://github.com/broadinstitute/gdctools/files/825892/GDCtools-overview.pdf)、[Wiki页面](https://github.com/broadinstitute/gdctools/wiki)或[tests/Makefile](tests/Makefile)。要从Unix命令行开始,只需`pip install gdctools`或克隆仓库并安装
```
% git clone https://github.com/broadinstitute/gdctools
% cd gdctools
% make install
```
这只需一两分钟,可能还会安装[requests](http://docs.python-requests.org/en/master/)、[fasteners](https://github.com/harlowja/fasteners)或[matplotlib](https://matplotlib.net.cn/)依赖项。*注意:如果您要将软件安装到受保护位置,您可能需要在`make install`命令前添加`sudo`。之后,您应该能够轻松地从命令行镜像[harmonized](https://gdc.cancer.gov/about-data/gdc-data-harmonization)或[legacy](https://gdc-portal.nci.nih.gov/legacy-archive)数据
```
gdc_mirror --config tests/tcgaSmoketest.cfg
```
(这是`make test`目标所执行的操作),即使是针对单个患者案例
```
gdc_mirror --cases TCGA-EE-A3J8
```
或仅针对该患者的某类数据
```
gdc_mirror --cases TCGA-EE-A3J8 --categories "拷贝数变异"
```
或执行其他操作,例如查看哪些NIH/NCI项目已公布可下载的数据
```
% gdc_list programs
[
"TCGA",
"TARGET"
]
```
或已提交数据的项目(可能尚未公布)
```
% gdc_list submission
[
"CCLE",
"REBC",
"TCGA",
"TARGET",
"CGCI",
"CDDP",
"ALCHEMIST",
"GDC",
"Exceptional_Responders",
"UAT08",
"TRIO",
"CPTAC"
]
```
在镜像完成后,您可以在镜像树中运行[gdc_dice](https://github.com/broadinstitute/gdctools/wiki/GDC-Dicer),然后运行[gdc_loadfile](https://github.com/broadinstitute/gdctools/wiki/Create-Loadfile)来生成一个样本"冻结"列表,该列表标识要加载到Firehose或FireCloud等管道执行系统中的数据。最后,如果您已安装*matplotlib*和*R*,您还可以运行[gdc_report](https://github.com/broadinstitute/gdctools/wiki/Sample-reports)工具来生成HTML样本报告([类似于此](http://gdac.broadinstitute.org/runs/sampleReports/latest/)),该报告提供了对处理数据的注释说明;请注意,如果检测到R安装中没有检测到[Nozzle](https://confluence.broadinstitute.org/display/GDAC/Nozzle),则此工具将尝试自动安装。如前所述,[tests/Makefile](tests/Makefile)提供了使用dice、loadfile和报告工具的示例。GDCtools已被验证可以与多个Python2和Python3版本正常工作,我们对支持此目标所做的[社区贡献](https://github.com/broadinstitute/gdctools/commit/53be8ee4d720b502c2dbb1e110e7c20754331e3e)表示感谢。
Python和UNIX CLI工具,用于简化从[NIH/NCI基因组数据共享](https://gdc.cancer.gov/)搜索和检索开放获取数据,并自动化大多数数据驱动型科学项目中常见的任务。有关更多信息和方法示例,请参阅[pictorial overview](https://docs.google.com/viewer?url=https://github.com/broadinstitute/gdctools/files/825892/GDCtools-overview.pdf)、[Wiki页面](https://github.com/broadinstitute/gdctools/wiki)或[tests/Makefile](tests/Makefile)。要从Unix命令行开始,只需`pip install gdctools`或克隆仓库并安装
```
% git clone https://github.com/broadinstitute/gdctools
% cd gdctools
% make install
```
这只需一两分钟,可能还会安装[requests](http://docs.python-requests.org/en/master/)、[fasteners](https://github.com/harlowja/fasteners)或[matplotlib](https://matplotlib.net.cn/)依赖项。*注意:如果您要将软件安装到受保护位置,您可能需要在`make install`命令前添加`sudo`。之后,您应该能够轻松地从命令行镜像[harmonized](https://gdc.cancer.gov/about-data/gdc-data-harmonization)或[legacy](https://gdc-portal.nci.nih.gov/legacy-archive)数据
```
gdc_mirror --config tests/tcgaSmoketest.cfg
```
(这是`make test`目标所执行的操作),即使是针对单个患者案例
```
gdc_mirror --cases TCGA-EE-A3J8
```
或仅针对该患者的某类数据
```
gdc_mirror --cases TCGA-EE-A3J8 --categories "拷贝数变异"
```
或执行其他操作,例如查看哪些NIH/NCI项目已公布可下载的数据
```
% gdc_list programs
[
"TCGA",
"TARGET"
]
```
或已提交数据的项目(可能尚未公布)
```
% gdc_list submission
[
"CCLE",
"REBC",
"TCGA",
"TARGET",
"CGCI",
"CDDP",
"ALCHEMIST",
"GDC",
"Exceptional_Responders",
"UAT08",
"TRIO",
"CPTAC"
]
```
在镜像完成后,您可以在镜像树中运行[gdc_dice](https://github.com/broadinstitute/gdctools/wiki/GDC-Dicer),然后运行[gdc_loadfile](https://github.com/broadinstitute/gdctools/wiki/Create-Loadfile)来生成一个样本"冻结"列表,该列表标识要加载到Firehose或FireCloud等管道执行系统中的数据。最后,如果您已安装*matplotlib*和*R*,您还可以运行[gdc_report](https://github.com/broadinstitute/gdctools/wiki/Sample-reports)工具来生成HTML样本报告([类似于此](http://gdac.broadinstitute.org/runs/sampleReports/latest/)),该报告提供了对处理数据的注释说明;请注意,如果检测到R安装中没有检测到[Nozzle](https://confluence.broadinstitute.org/display/GDAC/Nozzle),则此工具将尝试自动安装。如前所述,[tests/Makefile](tests/Makefile)提供了使用dice、loadfile和报告工具的示例。GDCtools已被验证可以与多个Python2和Python3版本正常工作,我们对支持此目标所做的[社区贡献](https://github.com/broadinstitute/gdctools/commit/53be8ee4d720b502c2dbb1e110e7c20754331e3e)表示感谢。
项目详情
关闭
gdctools-0.2.12.tar.gz的散列值
算法 | 散列摘要 | |
---|---|---|
SHA256 | bd63e3265b59d1deb40af401aa6775f30fbb7cd1c17fb1cfa9ba9fb676aab055 |
|
MD5 | 5afb307e1ae636800a2014e09bf6c444 |
|
BLAKE2b-256 | b91bfa1e371c4c2d79ad8f3095b6497507accc1341daa2d7a3d58bb8bfe81aea |