使用通用工作流程语言的NLP管道软件
项目描述
nlppln是一个使用通用工作流程语言(CWL)创建NLP管道的Python包。它提供了(通用)NLP功能的步骤,例如分词、词形还原和词性标注,并帮助用户从这些步骤构建工作流程。
文本处理步骤由一个(Python)命令行工具和用于此工具的CWL规范组成。nppln提供的工具大多数都封装了现有的NLP功能。命令行工具是用Click制作的,Click是一个用于创建命令行界面的Python包。
要创建工作流程,您必须编写一个Python脚本
from nlppln import WorkflowGenerator with WorkflowGenerator() as wf: txt_dir = wf.add_input(txt_dir='Directory') frogout = wf.frog_dir(in_dir=txt_dir) saf = wf.frog_to_saf(in_files=frogout) ner_stats = wf.save_ner_data(in_files=saf) new_saf = wf.replace_ner(metadata=ner_stats, in_files=saf) txt = wf.saf_to_txt(in_files=new_saf) wf.add_outputs(ner_stats=ner_stats, txt=txt) wf.save('anonymize.cwl')
生成的结果工作流程可以使用CWL运行器运行,例如cwltool
cwltool anonymize.cwl --txt_dir /path/to/directory/with/txt/files/
要创建新的(例如,特定项目的)NLP功能,您可以使用nlppln-gen生成样板(即空)命令行工具和CWL规范。
完整的文档可以在Read the Docs上找到。
安装
使用pip安装nlppln
pip install nlppln
请检查安装指南以获取所需的额外软件。
许可证
版权所有 (c) 2016-2018, 荷兰电子科学中心,特文特大学
根据Apache许可证版本2.0(“许可证”);除非遵守许可证,否则您不得使用此文件。您可以在以下地址获取许可证副本:
https://apache.ac.cn/licenses/LICENSE-2.0
除非适用法律要求或书面同意,否则在许可证下分发的软件按“原样”分发,不提供任何形式的保证或条件,无论是明示的还是暗示的。有关许可证下权限和限制的具体语言,请参阅许可证。
项目详情
关闭
nlppln-0.3.3.tar.gz 的散列
算法 | 散列摘要 | |
---|---|---|
SHA256 | 3b86fd016d17ce356af213f318f34becb543e6fc601fadf124f2448afb04b3af |
|
MD5 | fd4f55fc85ce0b4898f16b7ab6068dbf |
|
BLAKE2b-256 | c1b9f188385aee2cacfb7f5e6010fee01465b784b9f391a4ea15c9a0bb4e47e0 |