未提供项目描述
项目描述
L U N G - S A R G
可持续、可访问的肺放射基因组学开放数据平台
肺-SARG是一个完全开源和本地优先的平台,它改进了社区如何协作开放数据以诊断肺癌和在当地人口中进行流行病学研究的协作方式。
[!TIP] 由该项目生成的数据集已准备好在HuggingFace进行探索和消费。
查看它们!
💡 原则
- 开放: 代码、标准、基础设施和数据都是公开的且是开源的。
- 模块化和互操作性: 每个组件都可以替换、扩展或删除。在许多环境中(您的笔记本电脑、集群或浏览器)表现良好,可以部署到许多地方(S3 + GH Pages、IPFS等),并与多个工具集成(多亏了Arrow和Zarr生态系统)。使用开源工具、标准、基础设施,并以可访问的格式共享数据。
- 数据即代码: 使用
git
跟踪的声明性无状态转换。提高数据访问并赋予数据科学家进行研究的能力,有助于引导社区驱动的分析和决策。以代码形式版本化您的数据!发布和分享您可重用的模型,以便他人在此基础上构建。数据集应既可重复使用又可访问! - 粘合剂: 在工具和方法之间架起桥梁。例如:使用像类型、测试、物化视图等软件工程良好实践。
- FAIR.
- 简洁: 最小化和灵活。依赖于一件事就做好一件事的工具。
- 无供应商锁定
- 依赖开源代码、标准和基础设施。
- 使用您想要的工具来创建、探索和消费数据集。对任何工具或基础设施提供商不敏感。
- 数据和API的标准格式! 尽可能使您的数据未来友好且具有前瞻性!
- 分布式:无需许可的生态系统和协作。开源代码并使其易于改进。
- 社区:激励贡献者。
- 不可变性:拥抱幂等性。依靠基于内容的存储和仅追加日志。
- 无状态和无服务器:尽可能多。例如,使用GitHub Pages,在S3上托管数据集,与HTML、JavaScript和WASM接口。无需维护服务器,无需管理数据库,无需担心基础设施。保持基础设施管理精简。
- 离线优先:依赖静态文件和离线优先工具。
- 最重要的是,享受过程并玩得开心 🎉
概述
肺SARG数据流。
⚙️ 设置和执行
🐍 Pixi
您可以通过pixi在可复制的软件环境中安装所有依赖项。为此,安装pixi,克隆存储库,并从根目录运行以下命令。
pixi install -a
查看所有可用的任务
pixi task list
在本地启动并访问Dagster UI。
pixi run dev
🧬 在样本数据上运行
在Dagster UI中,点击
概述 -> 作业 -> stage_idc_nsclc_radiogenomic_samples -> 材料化所有
观察Dagster UI的概述、运行和资产页面中发生的情况,以及lung-sarg/data目录中的内容。
🎯 动机
这个项目是在思考开放式数据协议可能的样子之后开始的!
👏 致谢
项目详情
下载文件
下载适用于您平台的文件。如果您不确定选择哪个,请了解有关安装软件包的更多信息。
源分发
lung_sarg-1.0.0.tar.gz (11.8 kB 查看哈希值)
构建分发
lung_sarg-1.0.0-py3-none-any.whl (9.8 kB 查看哈希值)
关闭
lung_sarg-1.0.0.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | b5bec0f6491654d4cd05ffb8450c9c4162947d07d62aa10b7e598a17c0f63542 |
|
MD5 | a0b8ccc2c2b9257cd3e143eb28f5448d |
|
BLAKE2b-256 | 099632bc8386f73c633934e9bde686ec571ff35599a5e6a41a2d3136ed05b854 |