自动细胞工具包
项目描述
actk
自动细胞工具包
一个用于处理视野(FOV)显微镜图像并生成每个视野中细胞的数据和渲染产品的管道。值得注意的是,此管道产生的数据用于细胞特征探索器。
功能
此软件包中的所有步骤和功能都可以通过命令行作为单个步骤或全部运行。
通常,此软件包的所有命令都将遵循以下格式:actk {step} {command}
step
是步骤的名称,例如 "StandardizeFOVArray" 或 "SingleCellFeatures"command
是您想让该步骤执行的操作,例如 "run" 或 "push"
每个步骤都会在处理之前检查提供的数据集是否包含所需的字段。有关每个字段的详细信息,请参阅我们的数据集字段文档。
示例数据集可在此处查看。
管道
要从头到尾运行整个管道,您可以简单地运行
actk all run --dataset {path to dataset}
还可以通过附加它们来传递特定步骤的参数。例如:SingleCellFeatures
步骤有一个 cell_ceiling_adjustment
参数,这可以在单个步骤运行级别以及整个管道中设置
actk all run --dataset {path to dataset} --cell_ceiling_adjustment {integer}
请参阅我们的文档中的步骤模块,获取每个步骤的完整参数列表
管道配置
可以为底层管理此工作流程中步骤数据存储和上传的 datastep
库提供一个配置文件。
配置文件应简单地命名为 workflow_config.json
,并且应从您运行 actk
的任何目录中可用。如果当前工作目录中找不到此配置,则 datastep
包将选择默认值。
以下是我们生产配置的示例
{
"quilt_storage_bucket": "s3://allencell",
"project_local_staging_dir": "/allen/aics/modeling/jacksonb/results/actk"
}
您甚至还可以通过使用步骤名称等方式,在此文件中附加步骤特定的配置
{
"quilt_storage_bucket": "s3://example_config_7",
"project_local_staging_dir": "example/config/7",
"example": {
"step_local_staging_dir": "example/step/local/staging/"
}
}
AICS分布式计算
对于AICS团队的成员,要在SLURM集群上以分布式模式运行,请在管道调用中添加 --distributed
标志。
要设置分布式集群和工作参数,您还可以添加以下标志
--n_workers {int}
(例如,--n_workers 100
)--worker_cpu {int}
(例如,--worker_cpu 2
)--worker_mem {str}
(例如,--worker_mem 100GB
)
单个步骤
actk standardizefovarray run --dataset {数据集路径}
,生成标准化的、有序的、归一化的FOV图像作为OME-Tiffs。actk singlecellfeatures run --dataset {数据集路径}
,为数据集中的每个细胞生成一个特征JSON文件。actk singlecellimages run --dataset {数据集路径}
,为数据集中的每个细胞生成边界3D图像和2D投影。actk diagnosticsheets run --dataset {数据集路径}
,为单个细胞图像生成诊断表。对于质量控制很有用。
安装
安装要求:在安装本包之前,必须安装python包 numpy
: pip install numpy
稳定版本: pip install actk
开发版本: pip install git+https://github.com/AllenCellModeling/actk.git
文档
有关完整包文档,请访问 allencellmodeling.github.io/actk。
发布的数据
有关此库能力的大规模示例,请参见通过运行最大的细胞数据集生成此管道后的数据。从此管道创建的Allen Institute for Cell Science数据可以在此处找到。
此包包含源显微镜图像、分割文件、预处理的单个细胞图像和特征以及诊断表。
我们的源图像是内源标记的hiPSC,在Matrigel包被的96孔板中培养4天,玻璃底成像板。每个视野(FOV)包括4个通道(BF、EGFP、DNA、细胞膜),通过一个相机(工作流程管道4.0 - 4.2)收集或同时使用两个相机(工作流程管道4.4)收集。您可以使用每个图像的文件元数据来定位您感兴趣的特定通道。视野是通过使用照片保护混合物(模式A)随机选择的、富含有丝分裂事件(模式B)或从殖民地(边缘、脊、中心)的3个不同区域采样(模式C)。此数据集中编目图像的几个口味
- 视野(FOV)图像与通道
- 明场
- EGFP
- DNA
- 细胞膜
- 带通道的分割文件
- 核分割
- 核轮廓
- 膜分割
- 膜轮廓
* 一些FOV图像包含七个通道而不是四个。额外的三个通道是在采集过程中添加的“虚拟”通道,可以忽略。
Allen Institute细胞工作流程的完整细节可在我们的网站上找到 此处。
Allen Institute显微镜工作流程的完整细节可在我们的网站上找到 此处。
以下为每个细胞提供的信息
- 细胞ID
- 细胞索引(来自视野的分割内)
- 元数据(细胞系、标记蛋白质名称、分割区域索引、基因等)
- 3D细胞和核分割以及DNA、膜和结构通道
- 对上述3D图像的(XY、ZX和ZY)维度对进行2D最大投影
- 每个单元格都具有大量特性
对于3D单细胞图像,通道顺序为
- 分割DNA
- 分割膜
- DNA(Hoechst)
- 膜(CellMask)
- 标记结构(GFP)
- 透射光
要与此数据集交互,请参阅Quilt文档。
开发
有关开发代码的相关信息,请参阅CONTRIBUTING.md。
有关此流程构建的更多详细信息,请参阅cookiecutter-stepworkflow和datastep。
要向此流程添加新步骤,请运行make_new_step
并遵循CONTRIBUTING.md中的说明。
开发者安装
以下两个命令将以可编辑模式安装具有开发依赖项的包,并下载所有测试所需的资源。
pip install -e .[dev]
python scripts/download_test_data.py
AICS开发者说明
如果您想使用Pipeline Integrated Cell数据集(pipeline 4.*
)运行此流程,请执行以下命令
pip install -e .[all]
python scripts/download_aics_dataset.py
此脚本的选项可用,可使用python scripts/download_aics_dataset.py --help
查看。
致谢
此流程的先前迭代由Gregory Johnson创建并管理,用于与PyTorch Integrated Cell一起工作。
此版本流程更为通用,尽管仍然用于Integrated Cell模型,但也可以用于预处理各种显微镜图像数据集。
此流程的先前版本生成了pipeline_integrated_single_cell数据集。
免费软件:Allen Institute软件许可
项目详情
下载文件
下载适用于您的平台的文件。如果您不确定要选择哪个,请了解更多关于安装包的信息。