跳转到主要内容

quilt3distribute是一个围绕quilt3的小型包装器,使分发manifest风格的数据集变得更加容易。

项目描述

quilt3distribute

Build Status Documentation Code Coverage DOI

dataset packaging and distribution

人们通常处理表格数据集,人们想分享他们的数据,这使得通过Quilt3更容易。


功能

  • 自动确定要上传哪些文件,基于CSV标题。 (提供显式覆盖)
  • 简单界面,可根据manifest内容将元数据附加到每个文件。
  • 对多次引用的文件组进行元数据。
  • 验证并运行基本清洗操作,以检查您的数据集manifest CSV。
  • 可选地将许可详情和使用说明添加到数据集README。
  • 解析README以引用任何文件,并将它们打包在一起。
  • 支持添加manifest中不包含的额外文件。
  • 构建一个"关联"映射,并将其放置在每个文件的元数据中,以便快速在包中导航。
  • 强制要求附加到每个文件的元数据在每个文件列中标准化。

快速开始

构建一个csv(或pandas dataframe)数据集manifest(示例

CellId 结构 2dReadPath 3dReadPath
1 lysosome 2d/1.png 3d/1.tiff
2 laminb1 2d/2.png 3d/2.tiff
3 golgi 2d/3.png 3d/3.tiff
4 myosin 2d/4.png 3d/4.tiff
from quilt3distribute import Dataset

# Create the dataset
ds = Dataset(
    dataset="single_cell_examples.csv",
    name="single_cell_examples",
    package_owner="jacksonb",
    readme_path="single_cell_examples.md"
)

# Optionally add common additional requirements
ds.add_usage_doc("https://docs.quiltdata.com/walkthrough/reading-from-a-package")
ds.add_license("https://www.allencell.org/terms-of-use.html")

# Optionally indicate column values to use for file metadata
ds.set_metadata_columns(["CellId", "Structure"])

# Optionally rename the columns on the package level
ds.set_column_names_map({
    "2dReadPath": "images_2d",
    "3dReadPath": "images_3d"
})

# Distribute
pkg = ds.distribute(push_uri="s3://quilt-jacksonb", message="Initial dataset example")

返回

(remote Package)
 └─README.md
 └─images_2d
   └─03cdf019_1.png
   └─148ddc09_2.png
   └─2b2cf361_3.png
   └─312a0367_4.png
 └─images_3d
   └─a0ce6e01_1.tiff
   └─c360072c_2.tiff
   └─d9b55cba_3.tiff
   └─eb29e6b3_4.tiff
 └─metadata.csv
 └─referenced_files
   └─some_file_referenced_by_the_readme.png

示例元数据

pkg["images_2d"]["03cdf019_1.png"].meta
{
    "CellId": 1,
    "Structure": "lysosome",
    "associates": {
        "images_2d": "images_2d/03cdf019_1.png",
        "images_3d": "images_3d/a0ce6e01_1.tiff"
    }
}

安装

稳定版本: pip install quilt3distribute
开发头: pip install git+https://github.com/AllenCellModeling/quilt3distribute.git

致谢

本软件包是用Cookiecutter创建的。原始仓库

免费软件:艾伦研究所软件许可

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分布

quilt3distribute-0.1.4.tar.gz (24.7 kB 查看哈希)

上传时间 源代码

构建分布

quilt3distribute-0.1.4-py2.py3-none-any.whl (21.8 kB 查看哈希)

上传时间 Python 2 Python 3

支持者

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面