跳转到主要内容

CGP HCA数据存储的简单数据加载器

项目描述

cgp-dss-data-loader

CGP HCA数据存储的简单数据加载器

常见设置

  1. (可选) 我们建议使用Python 3 虚拟环境

  2. 运行

    pip3 install cgp-dss-data-loader

开发设置

  1. 克隆仓库

    git clone https://github.com/DataBiosphere/cgp-dss-data-loader.git

  2. 进入克隆项目的根目录

    cd cgp-dss-data-loader

  3. 确保你处于develop分支。

  4. 运行(理想情况下在一个新的虚拟环境中)

    make develop

云凭证设置

由于此程序使用Amazon Web Services和Google Cloud Platform,您在运行程序之前需要设置这两个服务的凭证。

AWS凭证

  1. 如果您还没有,您需要创建一个IAM用户并创建一个新的访问密钥。说明在此

  2. 接下来,您需要存储您的凭证,以便Boto可以访问它们。说明在此

GCP凭证

  1. 按照此处的步骤设置您的Google凭证。

运行测试

运行

make test

从Gen3获取数据并将其加载

  1. 第一步是使用sheepdog exporter提取您需要的Gen3数据。从sheepdog提取的TopMed公共数据可在发布页面下的“资产”部分找到。假设您使用这些数据,现在您将有一个名为topmed-public.json的文件。

  2. 请确保您正在运行在《设置》说明中设置的虚拟环境。

  3. 现在您需要将数据转换成“标准”加载器格式。使用newt-transformer完成此操作。您可以遵循通用设置,然后查看从sheepdog转换数据的部分。

  4. 现在我们有了新的转换输出,我们可以用加载器运行它。

    如果您使用了标准的转换器,请使用以下命令

    dssload --no-dry-run --dss-endpoint MY_DSS_ENDPOINT --staging-bucket NAME_OF_MY_S3_BUCKET transformed-topmed-public.json
    
  5. 成功了!

项目详情


下载文件

下载您平台上的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源分布

cgp-dss-data-loader-1.1.0.tar.gz (16.1 kB 查看哈希值)

上传时间

由以下支持