资源用于从文本中定位蛋白质复合物和家族,并描述它们之间的层次关系。
项目描述
FamPlex 的开放获取出版物可在以下链接找到
- 约翰·A·巴奇曼,本杰明·M·戈里和彼得·K·索尔格,FamPlex:生物医学文本挖掘中人类蛋白质家族和复合物实体识别和关系解析的资源。(2018)BMC生物信息学19(1):248
注意:FamPlex曾被称为Bioentities,并更名为以更好地反映该资源在蛋白质家族、复合物及其词汇同义词方面的重点。
该存储库包含以下文件
-
relations.csv
。定义特定基因/蛋白质在家族和蛋白质复合物中的成员资格。例如,PIK3CA isa PI3K_p110
,其中PI3K_p110表示PI3K的催化亚基类;以及PI3K_p110 partof PI3K
,其中PI3K表示由催化和调节亚基组成的命名复合物。 -
equivalences.csv
。定义外部命名空间与FamPlex命名空间之间的映射。 -
entities.csv
。FamPlex命名空间中定义的家族和复合物的注册表。 -
descriptions.csv
。某些实体的描述和引用。包含三列:FamPlex名称、管道分隔的参考CURIEs和文本描述。 -
grounding_map.csv
。将文本字符串显式映射到生物数据库中的标识符。 -
gene_prefixes.csv
。命名实体的前缀和后缀模式。 -
check_references.py
。一个脚本来检查各种文件之间交叉引用的完整性和一致性。
实体、关系和等价物
FamPlex包含定义基因/蛋白质与其家族和命名复合物成员资格之间关系的资源。FamPlex命名空间内定义的实体列在entities.csv
文件中。跨文件条目之间的交叉引用维护了一致性并防止了错误。
关系在relations.csv
中定义,使用两个关系作为三元组
-
isa
,表示家族成员资格; -
partof
,表示蛋白质复合物成员资格。
这两个关系可以组合起来捕获复杂层次关系,包括子家族(家族内部的家族)和由相关亚基家族组成的复合物(例如,PI3K,NF-kB)。
relations.csv
文件包含五列:(1)主语命名空间(例如,基因名称的HGNC
,Uniprot的UP
或FamPlex命名空间的FPLX
),(2)主语标识符,(3)关系(isa
或partof
),(4)对象命名空间,以及(5)对象标识符。
equivalences.csv
文件包含三列(1)外部实体的命名空间(例如,BEL
,PFAM
),(2)在第一列给出的命名空间中外部实体的标识符,以及(3)FPLX
命名空间中的等效实体。
基座图
使用从文本挖掘中提取的机制来解释生物数据集需要将文本中的实体正确地锚定到基因、蛋白质和化学物质的规范名称和ID。问题是基于字符串匹配的简单查找通常失败,尤其是对于蛋白质家族和命名复合物,它们在文本中频繁出现,但在数据库中却缺少相应的条目。
基座图通过为生物文献中经常遇到的实体提供明确的基座来解决此问题。文本字符串来自大约32,000篇专注于癌症生长因子信号传导的论文语料库。
实体锚定到以下数据库
-
基因/蛋白质:[Uniprot](http://www.uniprot.org)
-
化学品:[PubChem](https://pubchem.ncbi.nlm.nih.gov/),[CHEBI](https://www.ebi.ac.uk/chebi/)和[HMDB](http://www.hmdb.ca/)(对于代谢物)
-
生物过程:[GO](http://geneontology.org/)和[MeSH](http://www.ncbi.nlm.nih.gov/mesh)
-
蛋白质家族和命名复合物:锚定到FamPlex存储库中的
entities.csv
和relations.csv
文件中定义的实体,以及在可能的情况下锚定到[PFAM](http://pfam.xfam.org/)和[Interpro](https://www.ebi.ac.uk/interpro/)中的标识符。
基因前缀
文件 gene_prefixes.csv
列出了经常附加到命名实体的前缀和后缀。其中一些代表了实验背景的微妙之处(例如,在实验中,感兴趣的蛋白质被荧光蛋白标记),在确定句子逻辑时可以安全忽略。然而,其他一些则携带着重要的意义:例如,描述 'AKT shRNA' 对下游靶标影响的句子与包含 'AKT' 的句子具有相反的意义,因为 'AKT shRNA' 表示通过基因沉默抑制 AKT。
此文件中包含的模式是通过手动审查从大约 32,000 篇关于生长因子信号传导的论文语料库中提取的 70,000 个命名实体发现的。
重要提示:前缀/后缀可能以累加方式应用,例如 Myr-Flag-Akt1
,表示甲酰化的、标记有 FLAG 的 AKT1;或 GFP-KRAS-G12V
,表示带有 G12V 突变的 GFP 标记的 KRAS。
该文件包含三列
- 一个区分大小写的模式,例如,
mEGFP-{基因名}
,其中{基因名}
代表蛋白质/基因名。 - 一个类别,以下将进行描述。
- 注释:拼写首字母缩写等。
前缀/后缀的类别决定了它是否可以去除而不会对意义产生最小影响,或者它是否携带需要由解析器吸收的意义。类别如下
-
实验背景
。蛋白质标签、基因递送技术等。通常可以忽略。 -
物种
。表示人类、小鼠、灵长类或哺乳动物基因版本的前缀。在大多数使用情况下可以忽略。通常可以忽略。 -
通用描述符
。实体识别器提取的额外单词,可能指明实体是“蛋白质”、“蛋白酶”、“转录因子”等。在大多数使用情况下可以忽略。 -
mRNA 定位
。在大多数情况下,实体可以定位到蛋白质;对于{基因名} mRNA
,实体 必须明确地定位为 mRNA。 -
蛋白质状态
。表示激活状态、翻译后修饰、细胞定位等。必须由解析器捕获。 -
抑制
。表示蛋白质形式或干预措施,表示蛋白质的抑制,即功能丧失实验。具有切换提取机制极性的效果。例如,句子“DUSP6 沉默导致 MAPK1 磷酸化”表明 DUSP6 抑制 MAPK1 磷酸化。必须由解析器捕获。
Python 包
FamPlex 作为 Python 包在 PyPi 上可用,可以使用以下命令安装
$ pip install famplex
该包提供了加载资源文件和与 FamPlex 关系图一起工作的实用程序。如果使用 pip 而不是克隆 famplex 仓库,资源文件将不会直接对包可用。在仓库顶层运行以下命令
$ python update_resources.py
将文件复制到所需的位置。用户对顶层资源文件进行更改,并希望这些更改在包中可用时,应运行此命令。
贡献
欢迎贡献!请通过 sorgerlab/famplex 主仓库提交拉取请求:https://github.com/sorgerlab/famplex
如果对 CSV 文件进行添加或修改,请注意正确处理引号和换行符。这使得可以正确处理差异,以便审查更改。请通过 Github 上的拉取请求提交更新。
FamPlex 仓库中的 CSV 文件配置为使用 Microsoft Excel 本地编辑。仓库中的 CSV 文件具有 Windows 行终止符 ('\r\n'),并且不是参差不齐的(即,缺失的条目在行中将用空字符串填充以达到最长行的完整宽度)。
为了保留正确的换行符,请执行以下步骤
-
如果从 Excel(Windows 或 Mac OS X)保存,请保存为“Windows 带逗号的 (.csv)”格式。
-
如果使用 Python 脚本读取(或写入)文件,请使用以下 csv 格式参数集:
csvreader = csv.reader(f, delimiter=',', quotechar='"', quoting=csv.QUOTE_MINIMAL, lineterminator='\r\n')
-
如果在 Linux 上编辑文件,请使用
unix2dos
或类似程序后处理文件。
完成后,运行 tox
以验证所做的更新完整性并生成新的导出。
项目详情
下载文件
下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。
源分布
构建分布
famplex-0.0.5.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 33db1a30cee35c2aa0ab737338a16219e5aa12b073f3d1d80488ddc22da5c8d7 |
|
MD5 | fb9058302433327a1fd252ddd35d468f |
|
BLAKE2b-256 | b51a5569884c812f39a16b4b60afadd1e952cb9d8bffdeb8e15c42e383260ec1 |
famplex-0.0.5-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 81620fd24a2384bbc280037ed7a6bfdfb786a577b68f61abcd1b83102adae0eb |
|
MD5 | a17872c495d778eef65b79741c0114fc |
|
BLAKE2b-256 | 6f1763547641513a7a8c30f247a2a821f6592824053c6a065acb5491081dbeb6 |