基于Acromine的文本实体消歧
项目描述
Adeft
“Adeft”(基于Acromine的文本上下文实体消歧)是一种用于构建消歧模型以在科学文献中消歧生物学术语的缩写和缩写的实用工具。它利用了由曼彻斯特大学的NaCTeM(http://www.nactem.ac.uk/index.php)开发的Acromine算法的实现,用于在文本语料库中识别短形式的可能长形式扩展。它允许用户根据文本上下文构建消歧模型以消歧短形式。越来越多的预训练消歧模型可以通过adeft公开下载。
引用
如果您在研究中使用了Adeft,请在《开源软件杂志》中引用该论文。
Steppi A, Gyori BM, Bachman JA (2020). Adeft:基于Acromine的文本实体消歧及其在生物医学文献中的应用。《开源软件杂志》,5(45),1708,https://doi.org/10.21105/joss.01708
安装
Adeft与Python 3.5及以上版本兼容。它可在PyPi上找到,可以使用以下命令安装:
$ pip install adeft
Adeft的预训练机器学习模型可以通过以下命令下载:
$ python -m adeft.download
如果您选择通过克隆此存储库进行安装
$ git clone https://github.com/indralab/adeft.git
您还应该在本地存储库的顶层运行以下命令
$ python setup.py build_ext --inplace
以构建基于对齐的长形式检测和评分的扩展模块。
使用Adeft
可以使用from adeft import available_models
导入可用模型的字典
该字典将短形式映射到模型名称。多个等效的短形式可以映射到同一个模型。
以下是一个在文本列表上运行ER消歧器的示例
from adeft.disambiguate import load_disambiguator
er_dd = load_disambiguator('ER')
...
er_dd.disambiguate(texts)
用户还可以构建和训练自己的消歧器。有关更多信息,请参阅文档。
文档
文档可在https://adeft.readthedocs.io找到
Adeft工作流程的Jupyter笔记本位于notebooks
下
测试
Adeft使用pytest
进行单元测试,并使用Github Actions作为持续集成环境。要在本地运行测试,请确保安装setup.py中列出的测试特定要求
pip install adeft[test]
并下载如上所示的所有预训练模型。然后在顶层adeft
文件夹中运行pytest
。
资助
本软件的开发得到了国防高级研究计划局( awards W911NF018-1-0124 和 W911NF-15-1-0544)和国家癌症研究所( award U54-CA225088)的支持。
项目详情
adeft-0.12.3.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 3106eb30e5a655caf67db8433b265afa3f292e99bcdf76a720d0c180d2d4b8bb |
|
MD5 | b1eb05b38cd416abe11ef2fe16224fbf |
|
BLAKE2b-256 | 8b3c0bb1ef1f439966b66adc1a568536d4856cef231290036023347ccf442752 |