分析存储在.cool格式的基因组相互作用数据的分析工具
项目描述
cooltools: 在Python中启用高分辨率Hi-C分析
为您的.cool工具
染色体构象捕获技术揭示了基因组折叠的惊人复杂性。越来越多的实验室和多个联盟,包括4D核小体、国际核小体联盟和ENCODE,正在生成更高分辨率的数据集,以研究细胞状态、类型和生物体中的基因组结构。更大的数据集增加了计算分析的每个步骤的挑战,从存储、内存到研究人员的时间。最近引入的cooler格式通过稀疏数据模型轻松处理高分辨率数据集的存储。
cooltools 利用了这种格式,以实现高分辨率数据的灵活和可重复分析。 cooltools 提供了一套计算工具,包括配对的 Python API 和命令行访问,这有助于在高性能计算集群或自定义分析笔记本上进行工作流程。作为 Open2C 生态系统 的一部分,cooltools 还提供了 Hi-C 数据分析中关键概念的详细介绍,包括交互式笔记本文档。有关更多信息,请参阅预印本: https://doi.org/10.1101/2022.10.31.514564。
要求
在安装 cooltools 之前需要满足以下条件
- Python 3.7+
numpy
cython
安装
pip install cooltools
或直接从 github 安装最新版本
$ pip install https://github.com/open2c/cooltools/archive/refs/heads/master.zip
有关兼容依赖项的信息,请参阅 requirements.txt 文件,特别是关于 cooler 和 bioframe。
文档和教程
文档可在此处找到: https://cooltools.readthedocs.io/en/latest/。
Cooltools 提供了一系列使用 Open2c 代码生态系统 的教程。对于 Hi-C 分析新手,我们建议按照以下顺序通过示例笔记本
- 可视化:如何加载和可视化存储在 cooler 中的 Hi-C 数据。
- 接触与距离:如何计算作为基因组距离函数的接触频率,这是 Hi-C 图中最显著的特征。
- 间隔和鞍点:如何提取特征向量并创建反映 A/B 间隔的鞍点图。
- 绝缘和边界:如何提取绝缘轮廓并使用绝缘轮廓最小值调用边界。
- 堆叠和平均模式:如何围绕 CTCF 等基因组特征创建平均图。
对于有兴趣从命令行运行分析的用户
- 命令行界面:如何使用 cooltools CLI。
请注意,这些笔记本目前专注于哺乳动物有丝分裂 Hi-C 分析,但可以轻松扩展到其他生物体和细胞环境。要克隆笔记本进行交互式分析,请访问 https://github.com/open2c/open2c_examples。cooltools 的文档直接从这些笔记本构建。
贡献
Cooltools 欢迎贡献。工具的指导原则是它们(i)尽可能简单,(ii)尽可能可解释,(iii)不应涉及可视化。以下适用于向 cooltools 贡献新功能。
新功能应
- 明确定义问题
- 讨论替代解决方案
- 提供单独的示例(提供为 gist/notebook 等),解释其在多个数据集上的用例。
- 与 cooler 和 cooltools 的最新版本兼容(例如,应该能够在 cooler 最新版本生成的任何 cooler 上运行)
新功能应
- 泛化或扩展现有工具,而不会损害用户体验,并将其作为 PR 提交到相关工具
- 或提取基因组组织的一个独特特征,并将其作为沙盒的 pull request 提交
使用现有工具以新方式进行,将小故事作为独立的 Jupyter Notebook 提交为 pull requests 到 open2c_vignettes,而不是 cooltools sandbox。对该存储库的贡献门槛很低。我们建议每个小故事都包含包版本信息,并对其他版本引发错误。如果可行,可以使用 cooltools 下载的示例数据来提供尝试分析的一种简单方法。否则,可以指定数据来源,以便他人获取。
有关贡献的实用方面,请参阅指南 此处。
引用 cooltools
Open2C*,Nezar Abdennur*,Sameer Abraham,Geoffrey Fudenberg*,Ilya M. Flyamer*,Aleksandra A. Galitsyna*,Anton Goloborodko*,Maxim Imakaev,Betul A. Oksuz 和 Sergey V. Venev*。“Cooltools:在 Python 中启用高分辨率 Hi-C 分析。”bioRxiv,2022 年 11 月 1 日。 https://doi.org/10.1101/2022.10.31.514564。
项目详情
cooltools-0.7.1.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 1f12494add7b1271b71e418d10d060e1dac906a021fc2bd691e91f5599010051 |
|
MD5 | 3f6d4c201660ef9c1dcb8ff1e8dbb1fa |
|
BLAKE2b-256 | aa54e4775adfafcc8e844a2bfc54b8474527457a842d1666741c5cf57a252b0a |