一种用于通过氨基酸计数验证蛋白质组学中肽识别结果的工具。
项目描述
AA_stat
一种用于蛋白质组学中氨基酸残基修饰分析的开放源代码软件
概述
AA_stat 是一种用于质谱蛋白质组学的工具,可以揭示蛋白质组分析结果中意外的肽修饰,以及数据采集或处理过程中可能出现的假象。AA_stat 计算并可视化已识别肽的氨基酸发生频率。AA_stat 处理开放搜索的结果,并组成一个可以归因于修饰的已识别质量位移列表。
处理涉及对潜在峰的高斯拟合、特定组别的FDR过滤、氨基酸计数和观察到的质量位移的出现频率归一化。
如何引用
AA_stat的最新版本在以下文献中描述:
AA_stat:从开放搜索结果中智能分析体内和体外修饰。蛋白质组学杂志,第248卷,2021年9月30日,104350。 https://doi.org/10.1016/j.jprot.2021.104350
该文章的预印本可在biorXiv上找到: https://www.biorxiv.org/content/10.1101/2020.09.07.286161v2.full。
AA_stat的最初版本在以下文献中较早描述:
使用氨基酸计数验证蛋白质组学中肽识别结果。蛋白质组学,第18卷,第23期,2018年12月,1800117。 https://doi.org/10.1002/pmic.201800117
安装
AA_stat需要Python 3.8或更高版本。
从PyPI安装(所有平台)
pip install AA_stat
或者,您可以直接从GitHub安装
pip install git+https://github.com/SimpleNumber/aa_stat
创建桌面快捷方式
要为 AA_stat_GUI
创建桌面快捷方式,请在 pip install
后调用另一个命令
AA_stat_GUI --create-shortcut
快速入门
命令行
只需使用您的开放搜索结果调用AA_stat。如果可用,请同时传递光谱文件。
AA_stat --pepxml *.pepXML --mzml *.mzML
要检查结果,请在浏览器中打开名为report.html的文件。示例报告在此处显示。
图形用户界面
在命令行中运行AA_stat_GUI
或一次运行AA_stat_GUI --create-shortcut
并使用桌面快捷方式。
打开搜索结果和光谱文件
AA_stat处理pepXML或CSV格式的开放搜索结果,并与大多数现有搜索引擎获得的搜索结果兼容。默认情况下,建议使用来自Nesvizhskii 实验室网站的可用的MSFragger搜索引擎。有关其操作的详细信息,请参阅MSFragger 用户手册。
AA_stat的大多数新功能都需要您也提供光谱文件。AA_stat支持MGF和mzML格式。请注意,您必须提供用于开放搜索的相同文件。注意:如果您在RAW文件上运行MSFragger,可以将RAW文件转换为mzML,并将这些文件指定给AA_stat。
示例
开放搜索参数文件的示例可以在此处找到。
MSFragger使用示例
java -Xmx8G -jar MSFragger.jar open_search.params HeLa_run1.mzML HeLa_run2.mzML
AA_stat使用示例
AA_stat --pepxml *.pepXML --mzml *.mzML
用户手册
命令行选项
usage: AA_stat [-h] [--params PARAMS] [--dir DIR] [-v {0,1,2,3}] [--mgf MGF [MGF ...] | --mzml MZML [MZML ...]] (--pepxml PEPXML [PEPXML ...] | --csv CSV [CSV ...]) [--fmods FMODS] [--vmods VMODS]
[--enzyme ENZYME] [-n PROCESSES]
options:
-h, --help show this help message and exit
--params PARAMS CFG file with parameters. If there is no file, AA_stat uses default one. An example can be found at https://github.com/SimpleNumber/aa_stat
--dir DIR Directory to store the results. Default value is current directory.
-v {0,1,2,3}, --verbosity {0,1,2,3}
Output verbosity.
--mgf MGF [MGF ...] MGF files to localize modifications.
--mzml MZML [MZML ...]
mzML files to localize modifications.
--pepxml PEPXML [PEPXML ...]
List of input files in pepXML format.
--csv CSV [CSV ...] List of input files in CSV format.
--fmods FMODS Fixed modifications specified in the search (needed with CSV input). Example: +57.0215 @ C, +229.1630 @ N-term
--vmods VMODS Variable modifications specified in the search (needed with CSV input). Example: 15.9959 @ M, 42.0106 @ N-term
--enzyme ENZYME Enzyme specificity set in the search (needed with CSV input).
-n PROCESSES, --processes PROCESSES
Maximum number of processes to use.
配置文件
可以在default.cfg中设置配置参数(默认值和注释)。
AA_stat支持以下参数
名称 | 默认值 | 描述 |
---|---|---|
[data] | ||
假序列前缀 | 用于在数据库中表示假序列的前缀。如果未设置,将尝试“假序列前缀列表”中的所有前缀 | |
假序列前缀列表 | DECOY_, rev_ | 逗号分隔的值列表。对于每个输入文件,将从前缀列表中选择前缀,除非明确设置了“假序列前缀”。 |
FDR | 0.02 | PSM假发现率,将用于每个质量位移间隔。 |
标签 | M D Q C L H S R A W Y P F V N T E G I K | 所有氨基酸残基。如果您的数据包含不寻常的氨基酸残基,这可能很有用。 |
切割规则 | 胰蛋白酶 | 指定pyteomics.parser.expasy_rules中的名称或有效的Python正则表达式。 |
[csv输入] | ||
分隔符 | , (逗号) | CSV输入文件中使用的分隔符。 |
蛋白质列 | 蛋白质 | 包含蛋白质ID的列的名称。 |
蛋白质分隔符 | ; | 蛋白质列中蛋白质的分隔符。 |
肽段列 | 肽段 | 包含肽段序列的列的名称。 |
测量的质量列 | precursor_neutral_mass | 包含测量肽段质量的列的名称。 |
计算的质量列 | calc_neutral_pep_mass | 包含理论肽段质量的列的名称。 |
保留时间列 | retention_time_sec | 包含肽段保留时间的列的名称。 |
下一个氨基酸列 | peptide_next_aa | 包含蛋白质序列中下一个氨基酸的列的名称。 |
前一个氨基酸列 | peptide_prev_aa | 包含蛋白质序列中前一个氨基酸的列的名称。 |
光谱列 | 光谱 | 包含光谱ID的列的名称。 |
电荷列 | assumed_charge | 包含假设电荷的列的名称。 |
分数升序 | yes | "是"表示较小的分数更好。 |
[通用] | ||
直方图中的bin宽度 | 0.001 | 用于制作质量位移分布直方图的Da中的bin宽度。 |
质量位移容差 | 0.005 | 比较质量位移时使用的容差。这可能小于搜索中的“前体质量容差”,因为质量位移是通过仔细平均确定的,并且比单个测量更准确。 |
开放搜索范围 | -500, 500 | Da中的开放搜索范围。 |
移动窗口 | 0.03 | 用于高斯拟合的大分子质量窗口,单位为Da。至少应有一个质量偏移峰位于此窗口内。 |
零峰窗口 | 0.05 | 用于初始选择和拟合零偏移峰的大分子质量窗口,单位为Da。 |
桶阈值 | 200 | 开始高斯拟合所需的最小PSM数量间隔。 |
FDR校正 | yes | 在过滤每个质量间隔时使用FDR校正。 |
使用特定质量偏移窗口 | 否 | 关注特定质量偏移(是/否)。 |
特定质量偏移窗口 | 15.975, 16.005 | 指定用户希望关注的质量范围,单位为Da。 |
绘制总结直方图 | yes | 是否绘制质量偏移的总结直方图。 |
总结直方图dpi | 300 | 总结直方图图像的分辨率(PNG格式)。 |
英寸图大小 | 5.0, 3.5 | 指定输出图像的大小,单位为英寸(L,H)。适用于单个质量偏移图像,而非总结。 |
图dpi | 300 | 单个质量偏移图像的分辨率(PNG格式)。 |
零偏移质量容差 | 0.05 | 在此精度内,所有输入文件都将校准到0.0。 |
零偏移最小强度 | 0.05 | 选择作为参考质量偏移桶的依据。相对于最丰富的质量 |
质量校准所需的最小肽段数量 | 100 | 用于质量校准的未修饰肽段的最小量,这些肽段具有配置的FDR。 |
质量校准 | 高斯频率 | 用于高斯拟合的值。可以是'gauss_frequency'、'gauss'、'gauss_relative'、'simple'或'off'。 |
[聚类] | ||
使用聚类 | yes | 在对未修饰肽段进行高斯拟合校准时应用聚类。这有助于恢复部分校准误差,当测量的质量在运行的一部分发生偏移时。 |
DBSCAN eps因子 | 0.2 | eps参数的DBSCAN将与零峰窗口和此因子成正比。 |
DBSCAN min_samples | 5 | DBSCAN min_samples参数的值。 |
聚类跨度百分比最小值 | 0.1 | 单个聚类应覆盖的运行持续时间的最小比例。 |
总聚类肽段百分比最小值 | 0.5 | 属于大聚类的所有考虑肽段的最小比例。 |
[拟合] | ||
峰值中心的均方根阈值 | 15 | 由高斯拟合算法确定的峰值中心标准误差的阈值值。此值以直方图桶表示(桶宽度在[通用]中配置)。 |
sigma均方根阈值 | 0.1 | 由高斯拟合算法确定的sigma标准误差的阈值值,相对于sigma。 |
峰值高度均方根阈值 | 0.15 | 由高斯拟合算法确定的峰值高度标准误差的阈值值,相对于峰值高度。 |
偏移误差 | 10 | 拟合的高斯峰之间的最小距离(直方图桶)。距离较近的峰将被合并。 |
批量 | 900 | 每个工作进程应提供的质量偏移数量。 |
[定位] | ||
离子类型 | b, y | 考虑理论肽段光谱的离子类型。 |
碎片离子质量容差 | 0.01 | |
频率阈值 | 1.5 | 作为定位候选的最小归一化AA频率。 |
最小匹配峰 | 4 | 需要匹配的最小峰。 |
始终尝试终端定位 | yes | 如果启用,则在定位期间尝试所有质量偏移的终端位置。 |
尝试所有定位 | 否 | 如果启用,则所有定位都是可能的。否则,定位位点根据发生频率和Unimod确定。 |
[修饰] | ||
推荐可变修饰 | 5 | 推荐用于封闭搜索的修饰数量。 |
推荐在残基上的多次修饰 | yes | 允许在一个AA残基上使用多个修饰。 |
固定修饰强度阈值 | 3 | 考虑固定修饰的最大肽段百分比,这些肽段在零偏移处的AA。 |
同位素错误丰度阈值 | 10 | 推荐同位素误差的最小百分误差。 |
最小定位计数。 | 10 | 推荐可变修饰的最小绝对定位计数。 |
配置的固定修饰。 | 对于CSV输入,在此指定您搜索中使用的固定修饰。例如:+57.0215 @ C, +229.1629 @ K, +229.1630 @ N-term 。 |
|
配置的可变修饰。 | 对于CSV输入,在此指定您搜索中使用的可变修饰。例如:15.9959 @ M, 42.0106 @ N-term 。 |
输出文件
AA_stat输出示例可在此找到:这里。
AA_stat生成以下文件
A. 高斯拟合报告(gauss_fit.pdf)。
B. 摘要直方图(summary.png)。
C. 每个显著质量位移间隔的标准化频率图表(PNG和SVG文件)。如果提供MGF或mzML文件,将生成包含修改肽序列和定位得分的表格。
D. 摘要表(aa_statistics_table.csv),其中包含所有质量位移的氨基酸频率以及可能的修饰的Unimod.org链接。
E. 摘要表(p_values.csv),其中包含每个质量位移中每个氨基酸频率的p值。
F. HTML文件(report.html)汇总并说明了所有结果。
G. 如果提供MGF或mzML文件,将创建一个包含定位结果的表格(localization_statistics.csv)。
A. 高斯拟合文件显示考虑为质量位移峰的间隔中的PSM分布。子图标题对应于质量位移(间隔中心)。峰值分为3组:PASSED - 具有良好拟合的质量位移,将用于后续分析;NO FIT - 算法无法找到高斯函数的质量位移;FAILED - 拟合未通过配置的过滤标准的质量位移。
图1。 gauss_fit.pdf中的高斯拟合结果示例。 |
B。 摘要直方图显示所有质量位移间隔中过滤的PSM数量。每个柱子顶部的数字表示所有已识别PSM的百分比。每个质量位移间隔分别按用户指定的FDR级别进行过滤,使用目标- decoy方法。
图2。 摘要直方图示例。 |
C。 每个显著质量位移的标准化频率图表。每个图表的名称根据质量位移命名。图表中的每个条形表示给定质量位移间隔中特定氨基酸残基的标准化发生频率。标准化频率是通过以下方式计算的:
-
计算所有非冗余肽中所有氨基酸的总数,这些肽具有给定的质量位移;
-
将给定残基的计数除以间隔的总氨基酸计数以获得残基的发生频率;
-
通过将残基的标准化频率除以零质量位移间隔中相同残基的发生频率进行归一化。
如果残基的标准化频率显著超过1,则意味着该残基在具有相应质量位移的肽中“富集”,表明该残基与质量位移的原因之间存在联系。在最简单的情况下,该残基被修饰
图3。 15.9943质量位移的标准化频率图表示例(绿色)。橙色 -- 包含至少一种特定AA残基的肽的百分比。蓝色 -- 每个AA处的质量位移定位成功(仅当提供MS/MS光谱时)。计数未进行归一化。 |
D。 摘要表(aa_statistics_table.csv),其中包含所有质量位移的氨基酸频率以及肽计数和可能的修饰的Unimod.org链接。
E. 摘要表(p_values.csv)包含所有质量偏移中所有氨基酸频率的p值,指示从零质量偏移峰显著偏离的氨基酸频率。
F. HTML文件(report.html)汇总并说明了所有结果。示例可以在这里找到。
G. 定位总结显示了在MS/MS中成功定位修饰的每个箱中肽的数量。定位是通过生成可能等位基因的理论光谱并对其实验光谱进行评分来完成的。如果从评分角度看有一个明确的优胜者,则该光谱被认为是定位的。
列名 | 描述 |
---|---|
质量偏移 | 考虑的质量偏移质量。 |
箱中肽的数量 | 通过所有过滤程序的数量。 |
是否为同位素 | 布尔值。如果是某些其他质量偏移的同位素,则为True。 |
同位素索引 | 如果“是否为同位素”为True,则此列包含单同位素峰的质量。 |
质量偏移总和 | 显示所有可能的质量偏移对,这些对产生给定的质量偏移。 |
unimod候选 | 从Unimod.org数据库为给定质量偏移检索到的定位候选。 |
aa_stat候选 | 来自AA_stat统计的定位候选。 |
loc候选 | 来自所有来源的氨基酸候选组合:Unimod、AA_stat结果、同位素簇、修改总和,考虑使用MS/MS光谱进行质量偏移定位。 |
定位 | 使用MS/MS光谱提供的定位统计信息,对于给定的质量偏移,格式为“AminoAcid_MassShift:具有此定位的肽的数量”。如果没有明确的领导者在特定肽的质量偏移定位方面,则计为“未定位”。 |
AA_search选项
如果AA_stat使用在"AA_search"模式下,则在AA_stat之前运行MSFragger。AA_search还可以优化用于开放搜索的固定修饰,并在需要时重复开放搜索。这通过-x
选项(或--optimize-fixed-mods
)启用。支持的命令行选项完整列表
AA_search [-h] [--params PARAMS] [--MSFragger MSFRAGGER] [--dir DIR] [-v {0,1,2,3}] (--mgf MGF [MGF ...] | --mzml MZML [MZML ...]) [-db FASTA] [--os-params OS_PARAMS] [-x] [-s [SKIP]] [-je JAVA_EXECUTABLE] [-ja JAVA_ARGS]
optional arguments:
-h, --help show this help message and exit
--params PARAMS CFG file with parameters. If there is no file, AA_stat uses default one. An example can be found at https://github.com/SimpleNumber/aa_stat
--MSFragger MSFRAGGER
Path to MSFragger .jar file. If not specified, MSFRAGGER environment variable is used.
--dir DIR Directory to store the results. Default value is current directory.
-v {0,1,2,3}, --verbosity {0,1,2,3}
Output verbosity.
--mgf MGF [MGF ...] MGF files to search.
--mzml MZML [MZML ...]
mzML files to search.
-db FASTA, --fasta FASTA
FASTA file with decoys for open search. None: with included MSFragger parameters, the database is expected to contain decoys. Default decoy prefix is "rev_". If it differs, do not forget to specify it in
AA_stat params file.
--os-params OS_PARAMS
Custom open search parameters.
-x, --optimize-fixed-mods
Run multiple searches, automatically determine which fixed modifications to apply.
-s [SKIP], --skip [SKIP]
Skip search if pepXML files exist already. If not specified, no steps are skipped. If specified without value, first step may be skipped. Value is number of steps to skip. Only works with "-x".
-je JAVA_EXECUTABLE, --java-executable JAVA_EXECUTABLE
-ja JAVA_ARGS, --java-args JAVA_ARGS
AA_search使用示例
AA_search --MSFragger /path/to/MSFragger/MSFragger-2.4.jar -x -db fasta_file.fasta --mzml mzml_files.mzML --dir ./save_dir
所有搜索都保存在单独的文件夹中:"步骤1"、"步骤2"等。在这些文件夹中,保存了pepXML文件和开放搜索参数文件(os.params),以及AA_stat结果。
项目详情
下载文件
下载适合您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。
源分布
构建分布
aa_stat-2.6.tar.gz的哈希
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 07a1ac2d452d0b95f86be57f1183169d0e9545b1277cff650fe10106c6a815f4 |
|
MD5 | 03a357777da2b036a313afdd97ea478e |
|
BLAKE2b-256 | 0a10ed182f8c5215d86f34e6ed31d16fd5d475f9e39502d98d8e70b3a8ae9275 |