CGP HCA数据存储的简单数据加载器
项目描述
cgp-dss-data-loader
CGP HCA数据存储的简单数据加载器
常见设置
-
(可选) 我们建议使用Python 3 虚拟环境。
-
运行
pip3 install cgp-dss-data-loader
开发设置
-
克隆仓库
git clone https://github.com/DataBiosphere/cgp-dss-data-loader.git
-
进入克隆项目的根目录
cd cgp-dss-data-loader
-
确保你处于
develop
分支。 -
运行(理想情况下在一个新的虚拟环境中)
make develop
云凭证设置
由于此程序使用Amazon Web Services和Google Cloud Platform,您在运行程序之前需要设置这两个服务的凭证。
AWS凭证
GCP凭证
- 按照此处的步骤设置您的Google凭证。
运行测试
运行
make test
从Gen3获取数据并将其加载
-
第一步是使用sheepdog exporter提取您需要的Gen3数据。从sheepdog提取的TopMed公共数据可在发布页面下的“资产”部分找到。假设您使用这些数据,现在您将有一个名为
topmed-public.json
的文件。 -
请确保您正在运行在《设置》说明中设置的虚拟环境。
-
现在您需要将数据转换成“标准”加载器格式。使用newt-transformer完成此操作。您可以遵循通用设置,然后查看从sheepdog转换数据的部分。
-
现在我们有了新的转换输出,我们可以用加载器运行它。
如果您使用了标准的转换器,请使用以下命令
dssload --no-dry-run --dss-endpoint MY_DSS_ENDPOINT --staging-bucket NAME_OF_MY_S3_BUCKET transformed-topmed-public.json
-
成功了!
项目详情
关闭
cgp-dss-data-loader-1.1.0.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | d67433cd93a1bb9336cf7505e9ad8a68ec111994d9ae5388b7bf764d0201a275 |
|
MD5 | 1010730468564d023cd28a179b78b30b |
|
BLAKE2b-256 | 99afc5d322e3f6ff620ab5f8e4de6423e6ff64d9453c87c934b7e8545e4c1c3e |