跳转到主要内容

使用通用工作流程语言的NLP管道软件

项目描述

Codacy Badge Build Status Documentation Status PyPI version PyPI DOI

nlppln是一个使用通用工作流程语言(CWL)创建NLP管道的Python包。它提供了(通用)NLP功能的步骤,例如分词、词形还原和词性标注,并帮助用户从这些步骤构建工作流程。

文本处理步骤由一个(Python)命令行工具和用于此工具的CWL规范组成。nppln提供的工具大多数都封装了现有的NLP功能。命令行工具是用Click制作的,Click是一个用于创建命令行界面的Python包。

要创建工作流程,您必须编写一个Python脚本

from nlppln import WorkflowGenerator

with WorkflowGenerator() as wf:
  txt_dir = wf.add_input(txt_dir='Directory')

  frogout = wf.frog_dir(in_dir=txt_dir)
  saf = wf.frog_to_saf(in_files=frogout)
  ner_stats = wf.save_ner_data(in_files=saf)
  new_saf = wf.replace_ner(metadata=ner_stats, in_files=saf)
  txt = wf.saf_to_txt(in_files=new_saf)

  wf.add_outputs(ner_stats=ner_stats, txt=txt)

  wf.save('anonymize.cwl')

生成的结果工作流程可以使用CWL运行器运行,例如cwltool

cwltool anonymize.cwl --txt_dir /path/to/directory/with/txt/files/

要创建新的(例如,特定项目的)NLP功能,您可以使用nlppln-gen生成样板(即空)命令行工具和CWL规范。

完整的文档可以在Read the Docs上找到。

安装

使用pip安装nlppln

pip install nlppln

请检查安装指南以获取所需的额外软件。

许可证

版权所有 (c) 2016-2018, 荷兰电子科学中心,特文特大学

根据Apache许可证版本2.0(“许可证”);除非遵守许可证,否则您不得使用此文件。您可以在以下地址获取许可证副本:

https://apache.ac.cn/licenses/LICENSE-2.0

除非适用法律要求或书面同意,否则在许可证下分发的软件按“原样”分发,不提供任何形式的保证或条件,无论是明示的还是暗示的。有关许可证下权限和限制的具体语言,请参阅许可证。

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装软件包的信息。

源分发

nlppln-0.3.3.tar.gz (24.0 kB 查看散列)

上传时间

由以下支持