Cython绑定和Python接口到SWORD(Smith Waterman On Reduced Database),一种快速数据库搜索的启发式方法。
项目描述
🐍🗡️ PySWRD 
Cython绑定和Python接口到SWORD(Smith Waterman On Reduced Database),一种快速数据库搜索的方法。
🗺️ 概述
在目标序列数据库中搜索序列涉及将序列与所有目标对齐以找到得分最高的序列,这具有很高的计算成本。多年来已经提出了几种使用预筛选的方法。在BLAST[1]中,从查询中提取k-mer,并且只有包含相对于得分矩阵的高得分k-mer的目标才会进行实际对齐。
SWORD[2]提出了一种基于短错配k-mer完美哈希的预筛选。从查询序列生成的k-mer也包括与错配的k-mer,以提高灵敏度。当在目标序列中发现k-mer时,SWORD计算其所在的对角线,类似于FASTA[3]。然后根据目标序列在相同对角线上遇到的击中次数选择目标序列。然后通过平台加速的Opal[4]库处理成对对齐。
PySWRD是一个Python模块,它使用Cython将绑定到SWORD的启发式筛选部分。它实现了用户友好的Pythonic接口,用于构建启发式筛选,以块的方式处理数据库,并生成通过筛选器的目标索引。生成的索引可用于使用PyOpal进行成对对齐,就像原始的C++实现一样,使用Opal。
- 无二进制依赖:PySWRD作为Python包分发,因此您可以将其添加到您的项目中,无需担心SWORD二进制文件是否存在于最终用户机器上。
- 无中间文件:所有操作都在内存中发生,在您控制的Python对象中,因此您不需要使用子进程和临时文件调用SWORD CLI。
- 更好的可移植性:仅使用SWORD的启发式筛选器使代码与本地CPU功能无关,而SWORD和Opal需要SIMD。PySWRD将SIMD编译和动态调度委托给PyOpal,以便更容易安装该包。它还受益于PyOpal的更广泛平台支持,与原始Opal相比,它支持Windows和Aarch64 CPU。
🔧 安装
PySWRD适用于所有现代Python版本(3.6+)。
它可以直接从PyPI安装,该网站托管Linux、MacOS和Windows的预构建x86-64轮子以及用于使用Cython编译源代码的代码。
$ pip install pyswrd
💡 示例
PySWRD不提供I/O,因此必须通过其他库(如Biopython)加载要使用的序列。PySWRD只需要将序列作为Python字符串提供
targets = [
'MAFSAEDVLKEYDRRRRMEALLLSLYYPNDRKLLDYKEWSPPRVQVECPK',
'MSIIGATRLQNDKSDTYSAGPCYAGGCSAFTPRGTCGKDWDLGEQTCASG',
'MASNTVSAQGGSNRPVRDFSNIQDVAQFLLFDPIWNEQPGSIVPWKMNRE',
'MYQAINPCPQSWYGSPQLEREIVCKMSGAPHYPNYYPVHPNALGGAWFDT',
'MARPLLGKTSSVRRRLESLSACSIFFFLRKFCQKMASLVFLNSPVYQMSN'
]
queries = [
'MASNTVSAQGGSNRPVRDFSNIQDVAQFLLFDPIWNEQPG',
'MSFKVYDPIAELIATQFPTSNPDLQIINNDVLVVSPHKIT',
'MEQVPIKEMRLSDLRPNNKSIDTDLGGTKLVVIGKPGSGK'
]
使用高级的search
函数,该函数将内部类包装在一个函数中,以快速运行内存中所有序列的许多对多搜索。它期望序列作为Python字符串的可迭代对象,并产生通过E值和对齐阈值的击中
import pyswrd
for hit in pyswrd.search(queries, targets):
print(hit.query_index, hit.target_index, hit.score, hit.evalue)
可以向pyswrd.search
传递不同的参数,并将它们传递给SWORD筛选器和Opal对齐。例如,要使用PAM70矩阵而不是BLOSUM62以快速模式运行SWORD而不是默认的敏感模式,请使用
for hit in pyswrd.search(queries, targets, scorer_name="PAM70", score_threshold=0, kmer_length=5):
print(hit.query_index, hit.target_index, hit.score, hit.evalue)
默认情况下支持多线程,使用本地机器上报告的每个CPU的线程,但可以使用threads
参数更改
for hit in pyswrd.search(queries, targets, threads=1):
print(hit.query_index, hit.target_index, hit.score, hit.evalue)
如果愿意自行管理数据或想使用不同的对齐器,也可以直接使用pyswrd.HeuristicFilter
类。
⏱️ 基准测试
下表显示了使用196个蛋白质作为查询(uniprot_sprot196.fasta
)对内存中预先加载的12,701个蛋白质数据库(uniprot_sprot12071.fasta
)运行pyswrd.search
的时间
threads=1 |
线程数=2 |
线程数=4 |
线程数=8 |
线程数=12 |
|
---|---|---|---|---|---|
最大候选数=10 |
0.87秒 | 0.83秒 | 0.83秒 | 0.80秒 | 0.76秒 |
最大候选数=50 |
0.98秒 | 0.91秒 | 0.98秒 | 0.97秒 | 1.04秒 |
最大候选数=100 |
1.24秒 | 1.33秒 | 1.44秒 | 1.63秒 | 1.67秒 |
最大候选数=500 |
1.86秒 | 1.83秒 | 1.95秒 | 2.09秒 | 2.15秒 |
最大候选数=1000 |
2.87秒 | 2.64秒 | 2.83秒 | 2.82秒 | 2.90秒 |
最大候选数=5000 |
9.33秒 | 8.11秒 | 7.59秒 | 6.60秒 | 6.06秒 |
最大候选数=15000 |
21.50秒 | 15.85秒 | 14.74秒 | 11.83秒 | 11.34秒 |
最大候选数=30000 |
23.44秒 | 16.13秒 | 14.61秒 | 12.47秒 | 11.08秒 |
无过滤(Opal) | 31.38秒 | 23.60秒 | 19.57秒 | 15.43秒 | 14.60秒 |
BLAST+ (blastp ) |
7.46秒 | 4.97秒 | 4.01秒 | 3.63秒 | 3.66秒 |
max_candidates
参数控制SWORD启发式过滤器的严格性,减少了Opal进行的总比对数量,但代价是降低了敏感性(见SWORD补充图S1和S2。)。
SWORD在fast
模式下默认使用15,000个候选者,在sensitive
模式下默认使用30,000个候选者。这已在包含超过5.4M个序列的NCBI NR数据库上进行基准测试;对于较小数据库或序列冗余较少的数据库,可能可以选择更小的max_candidates
值,而不会损失敏感性。
💭 反馈
⚠️ 问题跟踪器
发现了一个错误?有增强请求吗?如果您需要报告或询问,请访问GitHub问题跟踪器。如果您正在提交一个错误,请尽可能提供关于问题的信息,并尝试在一个简单且易于复制的环境中重现相同的错误。
🏗️ 贡献
欢迎贡献!有关更多详细信息,请参阅CONTRIBUTING.md
。
📋 更新日志
本项目遵循语义版本控制,并提供了一个符合Keep a Changelog格式的更新日志。
⚖️ 许可证
本库根据GNU通用公共许可证v3.0提供。SWORD由Robert Vaser编写,并按照GPLv3条款分发。有关更多信息,请参阅vendor/sword/LICENSE
。SWORD根据MIT许可证重新分发附加库。
本项目与SWORD作者无任何关联、赞助或支持。它是由Martin Larralde在欧洲分子生物学实验室(EMBL)的Zeller团队攻读博士期间开发的。
📚 参考文献
- [1] Stephen F. Altschul, Warren Gish, Webb Miller, Eugene W. Myers, David J. Lipman. Basic local alignment search tool. J Mol Biol. 1990 Oct 5;215(3):403-10. doi:10.1016/S0022-2836(05)80360-2. PMID:2231712.
- [2] Robert Vaser, Dario Pavlović, Mile Šikić. SWORD—a highly efficient protein database search. Bioinformatics, Volume 32, Issue 17, September 2016, Pages i680–i684, doi:10.1093/bioinformatics/btw445.
- [3] David J. Lipman, William R. Pearson. 快速且灵敏的蛋白质相似性搜索。科学。1985年3月22日;227(4693):1435-41. doi:10.1126/science.2983426. PMID:2983426.
- [4] Korpar Matija, Martin Šošić, Dino Blažeka, Mile Šikić. SW#db: ‘基于GPU加速的精确序列相似性数据库搜索’。PLoS One。2015年12月31日;10(12):e0145857. doi:10.1371/journal.pone.0145857. PMID:26719890. PMC4699916.
项目详情
pyswrd-0.2.0.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | ca567e8e685b3c33b657e3e3cc27929f7a768ffc24af73b41f08c5f697beab37 |
|
MD5 | 9a5ae43f205ee879bb805d8bd772e935 |
|
BLAKE2b-256 | 16818e1219566abb3d1407a735ca12930976a0ae6ea5eaaec1ed7e95a54c8e51 |
pyswrd-0.2.0-pp310-pypy310_pp73-win_amd64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 871df8d4f9b7c3238b25be6c58908c68c61abfc239bf5e049e63969bef2e4cae |
|
MD5 | 3def512e88981d98d552d25771cc786c |
|
BLAKE2b-256 | 9c9edb9a93cbd6cfbb94a4a2f0b46ed02f517e2463755146bda53d17758cdf27 |
pyswrd-0.2.0-pp310-pypy310_pp73-manylinux_2_17_x86_64.manylinux2014_x86_64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 79d0efbbc500467f049f7e65f648806cf8f183b7b71ae98632e35502af436247 |
|
MD5 | c53788ed81daef9a857e5acdc059adf7 |
|
BLAKE2b-256 | 54696afad6468dbb687036cef9578ba7237c4abeee74187e2dbe56ba35da28a2 |
pyswrd-0.2.0-pp310-pypy310_pp73-macosx_10_12_x86_64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 850aa055960e1f2a860894baa59cd1c3bc3653c046ad5410f83cc7837f43d513 |
|
MD5 | 2dc5364a8548c5781550d206ef8ba897 |
|
BLAKE2b-256 | 1cf9ba7d611e8f587bae87a06349180d68e4c66fc6dbf77ba962b1d8f9946ca6 |
pyswrd-0.2.0-pp39-pypy39_pp73-win_amd64.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | bc0dda4053e527ca9d1025198039a4d671fb3a0e8b16ef3b4b29b34b124e3152 |
|
MD5 | 5ee872759c95634adeeeda6303286be9 |
|
BLAKE2b-256 | c381e969086cad47ab902e3269e8f678170a29f85fad33cb00d07d8cfe814377 |
哈希值 用于 pyswrd-0.2.0-pp39-pypy39_pp73-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | ceb3b067b75f38180ebc8f2a8800500b14eb621347bec89cbdeafd6e52c107da |
|
MD5 | ac7dffc2d3fd446cd63fc680239d354d |
|
BLAKE2b-256 | 03b4cdb0c80beef4f01fd60f9211c80b5b88952911dddea69120c5ea215bb911 |
哈希值 用于 pyswrd-0.2.0-pp39-pypy39_pp73-macosx_10_12_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | f4b3cbbee5a6bc8199256fe5641f337b6696cf334e61b1d20ace4bf778f7d21d |
|
MD5 | 6f1bf7b7e7c1e8d302596f537f3262c5 |
|
BLAKE2b-256 | 88de8cddee32552ece8a698e26732716d0ca27b65cfccf8aa428df158c0ccc37 |
哈希值 用于 pyswrd-0.2.0-pp38-pypy38_pp73-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | a2c738e5365c56b4f63f9925aef7d684e78bb06a3b35d39f50f954defa796727 |
|
MD5 | 294c2c0171fdd1fbb9c756d22beed698 |
|
BLAKE2b-256 | 1b7a4a60191d94e2e4446294aa9e8cb284c0df641c0c35fe706bde01222d3d57 |
哈希值 用于 pyswrd-0.2.0-pp38-pypy38_pp73-macosx_10_12_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 81f4e8bc2b03d437ccfbb9c5c8a32aab70d6e1f17187fd4c23b6996205e50f2b |
|
MD5 | d38eb3c0d0145e6c6582640044ff3450 |
|
BLAKE2b-256 | 90e3c72ba89c3e38d090dc2cb40880f5b4d9b8c385037c566c399c5ae0397b65 |
哈希值 用于 pyswrd-0.2.0-pp37-pypy37_pp73-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 00e144e9084a0ccf7305ef88a5d13b78e04596bd279ff896073d24a0f77729a6 |
|
MD5 | 5ce31d90380bbbbdc1c041e8f72b03e8 |
|
BLAKE2b-256 | 2961b969fdc6e7b34719d89bfd1b0d63dd11af8b3d27e538a8f0c318e609c127 |
哈希值 用于 pyswrd-0.2.0-pp37-pypy37_pp73-macosx_10_12_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 504a675c6d8a0fe7061bf6e931dc125f2a45c65f0640657d03d8a43297004c72 |
|
MD5 | b00c77334eb0fe95df5859b2414655f9 |
|
BLAKE2b-256 | d8d78e3cf0051e8f3de4b86f66ecbe2f18e7673feb475051614a53c0f95a3a37 |
哈希值 用于 pyswrd-0.2.0-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 0c51bb3e7f7f0d232b34cd8d98271d59bdb4252461e91fa32d9b8a5c565f85f8 |
|
MD5 | 074d16220d350c08c77651932bb1c252 |
|
BLAKE2b-256 | 7bbc8242d06404bb5100d527d65e8136151662ae28646eee9906720b75c13c93 |
哈希值 用于 pyswrd-0.2.0-cp312-cp312-macosx_10_12_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 4fb661c60a169ba10c17e9bf3d8f8f14fa3dc01e11989cea4033d759a231e81b |
|
MD5 | e62500e91f59143cf30666ca30f8cfa3 |
|
BLAKE2b-256 | 29143334752f22234049adedcf83d0e4ce7e9d8040fe67a384859670689e08eb |
哈希值 用于 pyswrd-0.2.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 345e862b3ab5d6ce80812d78792d0e536e60bee34e4e3e135788713af9cdfb36 |
|
MD5 | c1889a8ef776065c5208a1baeca803be |
|
BLAKE2b-256 | 7dd8d674ba5930e1e3ab91f7017e503574d0d0d782b292b1361d6ecf60b9d7d2 |
哈希值(pyswrd-0.2.0-cp311-cp311-macosx_10_12_x86_64.whl)
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 60d131abd6faf2b9a6d197ba9768f0393366d28bf78f6770a21a42115ec7b2f9 |
|
MD5 | 84996de7768ba09156fdaefe5cd1fd14 |
|
BLAKE2b-256 | 5d52beb222241c7af7aeca4bfe9925a4c0adf561ae9b7573aba7b05935dfb13f |
哈希值(pyswrd-0.2.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl)
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 4652241aae5d4c759ded00eec071492cf88ef0fe872c11c089aa475ecdc7caf7 |
|
MD5 | 5f778a29d222c27218f0121fb65e2889 |
|
BLAKE2b-256 | 966cf16ef958bfd09c3f5bb22205cfd40a7960f6bfa604b35bf52582073125d4 |
哈希值(pyswrd-0.2.0-cp310-cp310-macosx_10_12_x86_64.whl)
算法 | 哈希摘要 | |
---|---|---|
SHA256 | ba35db937ba6800bbb6d5170ff121a3860fb3f1a80813d8b7259567795f39020 |
|
MD5 | fbc502e1cb4aabf7ce65a28270ecbf64 |
|
BLAKE2b-256 | 6d69ff7008f058f4cf8633f3dcdfb85fdb1a6db01b75f988b1fc28b6c30edd75 |
哈希值(pyswrd-0.2.0-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl)
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 1f38a41fb54ab919f72c492975b405330f7ae6ea9a0089f2af013b449d896fef |
|
MD5 | f1667a96cab95d764687679955093ba6 |
|
BLAKE2b-256 | 4b81fedcfeae78fe40d3e5977a0d9f39ae88140bd8f2a9d55f347e8257cbf0e5 |
哈希值(pyswrd-0.2.0-cp39-cp39-macosx_10_12_x86_64.whl)
算法 | 哈希摘要 | |
---|---|---|
SHA256 | b54f8de616a93c028d7cfe4a76d45a05c398605608184cc57355455d9b92503b |
|
MD5 | 42bc868aad7b2c4bc3e70fe30a2827eb |
|
BLAKE2b-256 | 0e4dc68e61d95f352250c4c3052de04ca2aff8b7d614f7602e689d665d761521 |
哈希值(pyswrd-0.2.0-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl)
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 2e6b8a076379b4a6e744f2a1090496b4483745b5d1268a6ab9a366c5d41d3b5b |
|
MD5 | 337f465902c1cf8884cc6be895e2f773 |
|
BLAKE2b-256 | a9a87b190593ce269f2635afdf6dd57015c8f8832f036ae5ce567f452ef93353 |
哈希值(pyswrd-0.2.0-cp38-cp38-macosx_10_12_x86_64.whl)
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 601aea1d3dabe70d3379ce258b26dfb6e864739e54d4352e0f142c02db37ce27 |
|
MD5 | a2388bed6a782262cbe4dcc7967bc476 |
|
BLAKE2b-256 | 33f84ae4c709fd7f7f8ae0398549b284357733dc554526b989555ef041740a1f |
哈希值(pyswrd-0.2.0-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl)
算法 | 哈希摘要 | |
---|---|---|
SHA256 | b052b2b9deb6c9158dd2b98308e7dddc7a2f7816b8052eb0eb114e7f7ba45024 |
|
MD5 | 8cd6e163ff8651409ea2a050945189c5 |
|
BLAKE2b-256 | a045c508e94eec47b644d5b1053efe90c8567a67117f04af48347912df0a96a4 |
哈希值(pyswrd-0.2.0-cp37-cp37m-macosx_10_12_x86_64.whl)
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 01e250e0f0bf25ba5b997e9a6f74a80710f4ae3290c8f69ab29fac79984ed7a4 |
|
MD5 | a3d86165f05a94da90088e929b166a08 |
|
BLAKE2b-256 | 197a45a51891d0e370a6220aa2764cc0a5bf198bd25c3524827592c0e5105174 |
哈希值 for pyswrd-0.2.0-cp36-cp36m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | a821a68c1a9040f02ab20e278413f0013e5ac9802e1358f26dcc00700fa92a54 |
|
MD5 | 945d5f07bc4fe3edfa49e49789dca229 |
|
BLAKE2b-256 | be84da40b6fcb5f6bbf53c4205b590adc3e060016120a111b836315323af11a7 |
哈希值 for pyswrd-0.2.0-cp36-cp36m-macosx_10_12_x86_64.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | b995b19e1472e24964c42da59fd3e015fc952bf6e91eebe9080e98a8f401e8d8 |
|
MD5 | e52834dbc86507fc322a2efab20e8355 |
|
BLAKE2b-256 | 0db416d94eb6cd08eb3581c1d244d10d762ff176c3e6e728af5dd848cdf306c6 |