进化耦合分析框架
项目描述
EVcouplings
使用进化序列相关性来预测蛋白质结构、功能和突变。
安装和设置
安装Python包
如果您只是想将EVcouplings作为库使用,安装Python包就足够了(除非您使用依赖于外部工具的函数)。如果您想运行evcouplings应用程序(对齐生成、模型参数推断、结构预测等),您还需要遵循安装外部工具和数据库的部分。
要求
EVcouplings需要Python >= 3.5安装。由于它依赖于一些使用pip难以安装的包(numba、numpy等),我们建议使用Anaconda Python发行版。如果您正在创建新的conda环境或使用miniconda,请在运行pip之前确保运行conda install anaconda
,否则所需的包将不存在。
安装
要安装PyPI上的EVcouplings最新版本,
pip install evcouplings
要从GitHub仓库获取EVcouplings的最新开发版本,请运行:
pip install https://github.com/debbiemarkslab/EVcouplings/archive/develop.zip
如果之前已从仓库安装EVcouplings,则更新到最新版本,请运行:
pip install -U --no-deps https://github.com/debbiemarkslab/EVcouplings/archive/develop.zip
安装过程将花费几秒钟。
外部软件工具
在安装并运行计算作业之前,必须在您的EVcouplings作业配置文件中设置以下外部工具各自的二进制文件路径。
plmc(必需)
用于从序列变异推断无向统计模型的工具。根据包含的文档,从plmc GitHub仓库下载并安装plmc到您选择的目录。
为了与evcouplings兼容,请使用以下命令进行编译:
make all-openmp32
jackhmmer(必需)
从HMMER网页下载并安装HMMER到您选择的目录。
HHsuite(可选)
evcouplings使用hhfilter工具来过滤序列比对。如果需要此功能,则需要进行安装。
从HHsuite GitHub仓库下载并安装HHsuite到您选择的目录。
CNSsolve 1.21(可选)
evcouplings使用CNSsolve从耦合的残基对计算3D结构模型。如果想要运行计算管道的fold阶段,则需要进行安装。
从CNSsolve 1.21下载并解压到您选择的目录。由于evcouplings会内部处理正确的环境变量,无需依赖包含的shell脚本cns_solve_env(但是您需要在作业配置文件中放置cns二进制的路径,例如:cns_solve_1.21/intel-x86_64bit-linux/bin/cns)。
PSIPRED(可选)
evcouplings使用PSIPRED进行二级结构预测,以生成用于3D结构计算的二级结构距离和二面角约束。如果想要运行计算管道的fold阶段,并且不提供自己的二级结构预测,则需要进行安装。
根据包含的README文件中的说明下载并安装PSIPRED。
maxcluster(可选)
evcouplings使用maxcluster将预测的3D结构模型与实验蛋白质结构进行比较,如果目标蛋白质或其同源物有任何实验蛋白质结构,则需要进行安装。如果想要运行计算管道的fold阶段,则需要进行安装。
从maxcluster下载并将其放置在您选择的目录中。
数据库
在下载并运行计算作业之前,必须在您的EVcouplings作业配置文件中设置各自数据库的路径。
自动数据库设置
evcouplings应用程序至少需要一个序列数据库用于生成比对,以及用于将进化耦合与3D结构进行比较的结构映射信息。
EVcouplings的序列和结构映射数据库可以通过包含的命令行工具evcouplings_dbupdate自动下载。此工具将获取UniProt(SwissProt/TrEMBL)、UniRef100和UniRef90数据库,并生成基于SIFTS的结构映射表。
有关下载各自数据库的说明,请参阅:
evcouplings_dbupdate --help
请注意,这可能需要一些时间,特别是生成后处理的SIFTS映射文件。
EVcomplex的序列数据库
运行蛋白质复合物(也称为EVcomplex)的EVcouplings管道需要两个预先计算好的数据库。您可以从以下位置下载这些数据库:
ena_genome_location_table: https://marks.hms.harvard.edu/evcomplex_databases/cds_pro_2017_02.txt uniprot_to_embl_table: https://marks.hms.harvard.edu/evcomplex_databases/idmapping_uniprot_embl_2017_02.txt
请将这些数据库保存在您的本地环境中,然后将这些数据库本地副本的路径添加到配置文件中的复杂管道中。
在未来的版本中,这些数据库将自动生成。
其他序列数据库
但是,如果您愿意,可以使用任何FASTA格式的序列数据库。特定工作的数据库需要在作业配置文件中的“数据库”部分定义,并在“对齐”部分将其设置为输入数据库。
结构和映射数据库
比较ECs和3D结构预测的相关PDB结构将根据每个作业自动从网络中以新的压缩MMTF格式获取。但是,如果您愿意,也可以预先下载整个PDB并将结构放在一个目录中(并在作业配置中设置pdb_mmtf_dir)。
Uniprot到PDB索引映射文件将由EVcouplings根据SIFTS数据库自动生成。您可以通过运行evcouplings_dbupdate(见上文,推荐)或通过将sifts_mapping_table和sifts_sequence_db配置参数指向已存在目录中的文件路径来生成这些文件。如果这些文件尚不存在,它们将在管道首次运行时通过从网络获取和整合数据创建(这可能需要一些时间),并保存为给定的文件路径。
文档和教程
请参阅notebooks子目录中的Jupyter笔记本,了解如何
- 编辑配置文件
- 运行作业
- 将EVcouplings作为Python库使用
源代码的文档可在readthedocs上找到。
许可证
EVcouplings在MIT许可下提供,但附带CNS输入脚本的除外(请参阅LICENSE以获取详细信息)。
参考文献
请引用以下参考文献以引用EVcouplings Python包;
Hopf T. A.,Green A. G.,Schubert B.,等人. EVcouplings Python框架用于协同进化序列分析. Bioinformatics 35,1582–1584 (2019)
还请考虑引用以下参考文献,这些参考文献介绍了EVcouplings Python包中集成的方法
Marks D. S.,Colwell L. J.,Sheridan R.,Hopf T.A.,Pagnani A.,Zecchina R.,Sander C. 蛋白质3D结构通过进化序列变化计算. PLOS ONE 6(12),e28766 (2011)
Hopf T. A.,Colwell L. J.,Sheridan R.,Rost B.,Sander C.,Marks D. S. 通过基因组测序的膜蛋白的三维结构. Cell 149,1607-1621 (2012)
Marks D. S.,Hopf T. A.,Sander C. 通过序列变化预测蛋白质结构. Nature Biotechnology 30,1072–1080 (2012)
Hopf T. A.,Schärfe C. P. I.,Rodrigues J. P. G. L. M.,Green A. G.,Kohlbacher O.,Sander C.,Bonvin A. M. J. J.,Marks D. S. 蛋白质复合物的3D结构和序列协同进化的联系. eLife 25 Sep 2014;3 (2014)
Hopf T. A.,Ingraham J. B.,Poelwijk F.J.,Schärfe C.P.I.,Springer M.,Sander C.,Marks D. S. 从序列协同变化预测突变效应. Nature Biotechnology 35,128–135 doi:10.1038/nbt.3769
Green A. G. 和 Elhabashy H.,Brock K. P.,Maddamsetti R.,Kohlbacher O.,Marks D. S. (2019) 使用序列协同进化在蛋白质组规模上以残基分辨率发现蛋白质相互作用. BioRxiv (待审). https://doi.org/10.1101/791293
贡献者
EVcouplings是在哈佛医学院Debora Marks和Chris Sander的实验室开发的。
- Thomas Hopf(开发负责人)
- Anna G. Green
- Benjamin Schubert
- Sophia Mersmann
- Charlotta Schärfe
- Agnes Toth-Petroczy
- John Ingraham
- Rob Sheridan
- Christian Dallago
- Joe Min
项目详情
evcouplings-0.1.1.zip 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | aba07acdc39a0da73f39f48a8cac915d5b671abc008c123bbe30e6759a2499d2 |
|
MD5 | edc3ec3d7624b9e31e668b21880c5960 |
|
BLAKE2b-256 | fa40977d3a285cb409712df91cae50cefa2e2cbbad9c10bd74785ac249af2f4d |