跳转到主要内容

为蛋白质-蛋白质复合物生成一致的PSSM和/或PDB文件

项目描述

PSSMGen

Fair-software.nl 推荐证书 徽章
1. 代码库 GitHub URL
  GitHub
2. 许可证 License
3. 社区注册 Research Software Directory
  PyPI
4. 启用引用 DOI
5. 代码质量检查清单 CII best practices
代码分析 Codacy Badge

PSSMGen:为蛋白质-蛋白质复合物生成一致的PSSM和/或PDB文件

安装

  1. 确保BLAST已安装且其数据库在您的机器上可用。否则,请按照BLAST指南安装BLAST并下载其数据库。为了计算PSSM,建议的数据库是非冗余蛋白质序列nr(即来自FTP站点nr.*.tar.gz文件)。
  2. 通过pip install PSSMGen安装PSSMgen。

文件结构和名称的要求

PSSMGen旨在计算特定蛋白质-蛋白质复合物所有模型的pssm文件。

文件结构

此工具假设您的文件具有以下结构

 workdir
 |_ pdb
 |_ fasta
 |_ pssm_raw
 |_ pssm
 |_ pdb_nonmatch
  • workdir是您为特定蛋白质-蛋白质复合物的工作目录。
  • pdb文件夹包含PDB文件(一致的PDB文件)
  • fasta文件夹包含蛋白质序列FASTA文件。代码可以从pdb文件中提取序列以生成FASTA文件,或者您可以手动创建此文件夹并将自定义的FASTA文件放入其中。
  • pssm_raw文件夹存储PSSM文件。代码可以自动生成它们,或者您可以手动创建此文件夹并将自定义的PSSM文件放入其中。
  • pssm文件夹存储与PDB文件序列对齐的一致PSSM文件。此文件夹及其文件将自动创建。
  • pdb_nonmatch 文件夹存储不一致的PDB文件,而相关的一致PDB文件位于 pdb 文件夹中。此文件夹及其文件将自动创建。

文件名

代码假设您遵循不同文件类型的命名规则

  • PDB文件:caseID_*.chainID.pdb
  • FASTA文件:caseID.chainID.fasta
  • PSSM文件:caseID.chainID.pssm, caseID_*.chainID.pdb.pssm

示例

以下是一些关于复杂结构 7CEI 的示例。文件结构和输入文件应如下所示

7CEI
├── pdb
│   ├── 7CEI_1w.pdb
│   ├── 7CEI_2w.pdb
│   └── 7CEI_3w.pdb
└── fasta
    ├── 7CEI.A.fasta
    └── 7CEI.B.fasta

使用给定的FASTA文件计算PSSM

from pssmgen import PSSM

# initiate the PSSM object
gen = PSSM(work_dir='7CEI')

# set psiblast executable, database and other psiblast parameters (here shows the defaults)
gen.configure(blast_exe='/home/software/blast/bin/psiblast',
            database='/data/DBs/blast_dbs/nr_v20180204/nr',
            num_threads = 4, evalue=0.0001, comp_based_stats='T',
            max_target_seqs=2000, num_iterations=3, outfmt=7,
            save_each_pssm=True, save_pssm_after_last_round=True)

# generates raw PSSM files by running BLAST with fasta files
gen.get_pssm(fasta_dir='fasta', out_dir='pssm_raw', run=True, save_all_psiblast_output=True)

代码将自动创建 pssm_raw 文件夹以存储生成的PSSM文件。

将PSSM文件映射到PDB文件以获取一致的PSSM和PDB文件

在上一个示例中获取原始PSSM后,我们可以将其映射到PDB文件以获取一致的PSSM和PDB文件,如下所示

# map PSSM and PDB to get consisitent/mapped PSSM files
gen.map_pssm(pssm_dir='pssm_raw', pdb_dir='pdb', out_dir='pssm', chain=('A','B'))

# write consistent/mapped PDB files and move inconsistent ones to another folder for backup
gen.get_mapped_pdb(pdbpssm_dir='pssm', pdb_dir='pdb', pdbnonmatch_dir='pdb_nonmatch')

代码将自动创建 pssmpdb_nonmatch 文件夹及其相关文件。

从PDB文件中提取FASTA文件

如果未提供FASTA文件,您也可以从PDB文件中生成它们。

文件结构和输入文件应如下所示

7CEI
└── pdb
    ├── 7CEI_1w.pdb
    ├── 7CEI_2w.pdb
    └── 7CEI_3w.pdb
# initiate the PSSM object
gen = PSSM('7CEI')

# extract FASTA file from the reference pdb file.
# if `pdbref` is not set, the code will randomly select one pdb as reference.
gen.get_fasta(pdb_dir='pdb', pdbref='7CEI_1w.pdb', chain=('A','B'), out_dir='fasta')

代码将自动创建用于fasta文件和原始pssm文件的 fastapssm_raw 文件夹。

使用现有PSSM文件获取一致的PSSM和PDB文件

您可以提供原始PSSM文件而不是计算它们。

文件结构和输入文件应如下所示

7CEI
├── pdb
│   ├── 7CEI_1w.pdb
│   ├── 7CEI_2w.pdb
│   └── 7CEI_3w.pdb
└── pssm_raw
    ├── 7CEI.A.pssm
    └── 7CEI.B.pssm
from pssmgen import PSSM

# initiate the PSSM object
gen = PSSM('7CEI')

# map PSSM and PDB to get consisitent files
gen.map_pssm()

# write consistent files and move
gen.get_mapped_pdb()

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源分发

PSSMGen-0.1.2.tar.gz (16.1 kB 查看哈希)

上传时间

构建分发

PSSMGen-0.1.2-py3-none-any.whl (16.5 kB 查看哈希)

上传时间 Python 3

支持者

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面