跳转到主要内容

基于Acromine的文本实体消歧

项目描述

Adeft

DOI DOI License Tests Documentation PyPI version Python 3

“Adeft”(基于Acromine的文本上下文实体消歧)是一种用于构建消歧模型以在科学文献中消歧生物学术语的缩写和缩写的实用工具。它利用了由曼彻斯特大学的NaCTeM(http://www.nactem.ac.uk/index.php)开发的Acromine算法的实现,用于在文本语料库中识别短形式的可能长形式扩展。它允许用户根据文本上下文构建消歧模型以消歧短形式。越来越多的预训练消歧模型可以通过adeft公开下载。

引用

如果您在研究中使用了Adeft,请在《开源软件杂志》中引用该论文。

Steppi A, Gyori BM, Bachman JA (2020). Adeft:基于Acromine的文本实体消歧及其在生物医学文献中的应用。《开源软件杂志》,5(45),1708,https://doi.org/10.21105/joss.01708

安装

Adeft与Python 3.5及以上版本兼容。它可在PyPi上找到,可以使用以下命令安装:

$ pip install adeft

Adeft的预训练机器学习模型可以通过以下命令下载:

$ python -m adeft.download

如果您选择通过克隆此存储库进行安装

$ git clone https://github.com/indralab/adeft.git

您还应该在本地存储库的顶层运行以下命令

$ python setup.py build_ext --inplace

以构建基于对齐的长形式检测和评分的扩展模块。

使用Adeft

可以使用from adeft import available_models导入可用模型的字典

该字典将短形式映射到模型名称。多个等效的短形式可以映射到同一个模型。

以下是一个在文本列表上运行ER消歧器的示例

from adeft.disambiguate import load_disambiguator

er_dd = load_disambiguator('ER')

    ...

er_dd.disambiguate(texts)

用户还可以构建和训练自己的消歧器。有关更多信息,请参阅文档。

文档

文档可在https://adeft.readthedocs.io找到

Adeft工作流程的Jupyter笔记本位于notebooks

测试

Adeft使用pytest进行单元测试,并使用Github Actions作为持续集成环境。要在本地运行测试,请确保安装setup.py中列出的测试特定要求

pip install adeft[test]

并下载如上所示的所有预训练模型。然后在顶层adeft文件夹中运行pytest

资助

本软件的开发得到了国防高级研究计划局( awards W911NF018-1-0124 和 W911NF-15-1-0544)和国家癌症研究所( award U54-CA225088)的支持。

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源代码分发

adeft-0.12.3.tar.gz (177.2 kB 查看哈希值)

上传时间 源代码

由以下支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面