跳转到主要内容

肽段匹配器

项目描述

PepAln: 简单的肽段对齐可视化

这个Python包旨在将质谱检测到的短肽序列与FASTA文件进行匹配,然后以各种格式生成对齐输出。输入文件格式为

Peptide     F145I/Dd2Dd2    Mass_Spec_Mode
VG;GV          3.493           POS
PA             2.454           POS
SP             4.701           NEG

安装

pip install pepaln

用法

python -m pepaln -m fragments.txt -r reference.fa

生成名为output.gffoutput.txtoutput.pdf的文件

此包的功能是什么?

一个合作者让我将质谱实验中的短肽与一个序列进行对齐,然后展示一个易于查看的图像,显示每个肽段的对齐位置以及哪些区域没有被覆盖。

例如,当他们有一系列短片段时

VL LS LSP LSPAD PA NVKAA NVK VKA AA

以及一个原始序列为

VLSPADKTNVKAAWGK

他们希望看到它像这样对齐

VLSPADKTNVKAAWG
      **      
VL PA   NVKAA  
 LS     NVK    
 LSP     VKA     
 LSPAD     AA     

上面的*表示未被覆盖的区域。此外,他们还想用颜色显示不同的肽段。

我无法找到满足这一需求的工具,因此我编写了这个包。

输入数据

输入由至少三列制表符分隔的格式组成

Peptide     F145I/Dd2Dd2    Mass_Spec_Mode
VG;GV          3.493           POS
PA             2.454           POS
SP             4.701           NEG

其中

  1. 第一列列出肽段序列(多个序列可以列出,用分号;分隔)。
  2. 第二列列出值
  3. 第三列指示电离模式

参考FASTA文件可能包含多个目标序列。

>ha
VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPN
>hb
VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKVKAHGKKVLGAFSDGLAHL

输出

该工具将以TXT、GFF以及PDF格式生成输出。默认文件名为

  • output.txtoutput.gffoutput.pdf

您可以覆盖每个。

文本输出

>ha (Mode=POS)
VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPN
             **                    *   *         *                            
VL PA   NVKAA  KVGA AGEYG  AL RMF   PTT TYF HFD   GSAQV   GKKV DAL  AV      PN
 LS  DKTNVK    KVGAHA EY    LE   LS      YFPH DL    AQVKG GKKVADA TNAVAHVDDM  
 LSP     VKA    VGA  GEYGA                FPH DLS    QV     KVA AL  AVAH      
 LSPAD     AA    GAHA   GAEA               PHF LS    QVK     VA ALTNA AHV     
   PADK           AHAG                     PHFD       VKGH       LT  VA       
                   HAGEYG                   HFDL       KGHGKKVA      VAH      

PDF输出

肽段根据其值字段着色

GFF输出

ha	VL	.	1	2	.	2.433	.	Mode=POS
ha	LS	.	2	3	.	4.806	.	Mode=POS
ha	LSP	.	2	4	.	2.522	.	Mode=POS
ha	LSPAD	.	2	6	.	1.613	.	Mode=POS
ha	PA	.	4	5	.	2.2	.	Mode=POS
ha	PADK	.	4	7	.	1.548	.	Mode=POS
ha	DKTNVK	.	6	11	.	1.845	.	Mode=POS
ha	NVKAA	.	9	13	.	3.012	.	Mode=POS
ha	VKA	.	10	12	.	3.986	.	Mode=POS
...

帮助

$ python -m pepaln
usage: __main__.py [-h] [-m MASS] [-r REF] [-p output.pdf] [-t output.txt]
                   [-g output.gff]

optional arguments:
  -h, --help            show this help message and exit
  -m MASS, --mass MASS  Mass-spec result file containing peptide sequences.
  -r REF, --ref REF     Reference file to match the peptides against.
  -p output.pdf, --pdf output.pdf
                        Output file for pdf file
  -t output.txt, --txt output.txt
                        Output file for text alignments
  -g output.gff, --gff output.gff
                        Output file as GFF data

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源代码分布

pepaln-1.0.0.tar.gz (7.2 kB 查看哈希值)

上传时间 源代码

构建分布

pepaln-1.0.0-py3-none-any.whl (7.9 kB 查看哈希值)

上传时间 Python 3

由以下机构支持