跳转到主要内容

未提供项目描述

项目描述

L U N G - S A R G

可持续、可访问的肺放射基因组学开放数据平台

GitHub GitHub Workflow Status GitHub Repo stars

肺-SARG是一个完全开源和本地优先的平台,它改进了社区如何协作开放数据以诊断肺癌和在当地人口中进行流行病学研究的协作方式。

[!TIP] 由该项目生成的数据集已准备好在HuggingFace进行探索和消费。

查看它们!

💡 原则

  • 开放: 代码、标准、基础设施和数据都是公开的且是开源的。
  • 模块化和互操作性: 每个组件都可以替换、扩展或删除。在许多环境中(您的笔记本电脑、集群或浏览器)表现良好,可以部署到许多地方(S3 + GH Pages、IPFS等),并与多个工具集成(多亏了Arrow和Zarr生态系统)。使用开源工具、标准、基础设施,并以可访问的格式共享数据。
  • 数据即代码: 使用git跟踪的声明性无状态转换。提高数据访问并赋予数据科学家进行研究的能力,有助于引导社区驱动的分析和决策。以代码形式版本化您的数据!发布和分享您可重用的模型,以便他人在此基础上构建。数据集应既可重复使用又可访问!
  • 粘合剂: 在工具和方法之间架起桥梁。例如:使用像类型、测试、物化视图等软件工程良好实践。
  • FAIR.
  • 简洁: 最小化和灵活。依赖于一件事就做好一件事的工具。
  • 无供应商锁定
  • 分布式:无需许可的生态系统和协作。开源代码并使其易于改进。
  • 社区:激励贡献者。
  • 不可变性:拥抱幂等性。依靠基于内容的存储和仅追加日志。
  • 无状态和无服务器:尽可能多。例如,使用GitHub Pages,在S3上托管数据集,与HTML、JavaScript和WASM接口。无需维护服务器,无需管理数据库,无需担心基础设施。保持基础设施管理精简。
  • 离线优先:依赖静态文件和离线优先工具。
  • 最重要的是,享受过程并玩得开心 🎉

概述

Lung SARG dataflow

肺SARG数据流。

⚙️ 设置和执行

🐍 Pixi

您可以通过pixi在可复制的软件环境中安装所有依赖项。为此,安装pixi,克隆存储库,并从根目录运行以下命令。

pixi install -a

查看所有可用的任务

pixi task list

在本地启动并访问Dagster UI

pixi run dev

🧬 在样本数据上运行

在Dagster UI中,点击

概述 -> 作业 -> stage_idc_nsclc_radiogenomic_samples -> 材料化所有

Materialize staging of samples

观察Dagster UI的概述运行资产页面中发生的情况,以及lung-sarg/data目录中的内容。

🎯 动机

这个项目是在思考开放式数据协议可能的样子之后开始的!

👏 致谢

  • 本项目是在Datonic的David Gasquez倡导的原则基础上构建的。它基于Datadex开放数据平台的方法,并扩展用于科学影像数据,使用OME-Zarr和基于DICOM的图像数据模型在NIH影像数据共享
  • 多亏了像DuckDBdbtDagsterITK等出色的开源项目,才使Lung-SARG成为可能...
  • 本项目是在James Gee博士的支持下,与UPenn PICSL实验室合作完成的。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解有关安装软件包的更多信息。

源分发

lung_sarg-1.0.0.tar.gz (11.8 kB 查看哈希值)

上传时间

构建分发

lung_sarg-1.0.0-py3-none-any.whl (9.8 kB 查看哈希值)

上传时间 Python 3

由以下组织支持