跳转到主要内容

Python中的命名实体识别的高级库

项目描述

Python中命名实体识别的高级库。

PyPI PyPI - Python Version CI https://coveralls.io/repos/github/flxst/nerblackbox/badge.svg?branch=master https://img.shields.io/badge/code%20style-black-000000.svg PyPI - License

资源

安装

pip install nerblackbox

关于

https://raw.githubusercontent.com/flxst/nerblackbox/master/docs/docs/images/nerblackbox_sources.png

从许多可用源中选择一个数据集。然后通过几个简单步骤训练、评估和应用程序语言模型。

1. 数据

  • HuggingFace (HF)本地文件系统 (LF)注释工具 (AT) 服务器或内置的 BI 数据集中选择一个数据集

dataset = Dataset("conll2003",  source="HF")  # HuggingFace
dataset = Dataset("my_dataset", source="LF")  # Local Filesystem
dataset = Dataset("swe_nerc",   source="BI")  # Built-in
  • 设置数据集

dataset.set_up()

2. 训练

  • 通过选择预训练模型和数据集来定义训练

training = Training("my_training", model="bert-base-cased", dataset="conll2003")
  • 运行训练并获取微调模型的性能

training.run()
training.get_result(metric="f1", level="entity", phase="test")
# 0.9045

3. 评估

  • 加载模型

model = Model.from_training("my_training")
  • 评估模型

results = model.evaluate_on_dataset("ehealth_kd", phase="test")
results["micro"]["entity"]["f1"]
# 0.9045

4. 推理

  • 加载模型

model = Model.from_training("my_training")
  • 让模型预测

model.predict("The United Nations has never recognised Jakarta's move.")
# [[
#  {'char_start': '4', 'char_end': '18', 'token': 'United Nations', 'tag': 'ORG'},
#  {'char_start': '40', 'char_end': '47', 'token': 'Jakarta', 'tag': 'LOC'}
# ]]

还有更多!请参阅文档以开始。

特性

数据

  • 集成来自多个来源的数据集(HuggingFace、注释工具等)

  • 支持多种数据集类型(标准、预分词)

  • 支持多种注释方案(IO、BIO、BILOU)

  • 文本编码

训练

  • 自适应微调

  • 超参数搜索

  • 使用不同随机种子进行多次运行

  • 训练结果的详细分析

评估

  • 对任何数据集上的任何模型进行评估

推理

  • 灵活的模型推理(实体/词级,概率,等等)

其他

  • 与HuggingFace完全兼容

  • GPU支持

  • 语言无关性

有关详细信息,请参阅文档

引用

@misc{nerblackbox,
  author = {Stollenwerk, Felix},
  title  = {nerblackbox: a high-level library for named entity recognition in python},
  year   = {2021},
  url    = {https://github.com/flxst/nerblackbox},
}

项目详情


下载文件

下载适用于您的平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分发

nerblackbox-1.0.0.tar.gz (127.0 kB 查看哈希值)

上传时间

构建分发

nerblackbox-1.0.0-py3-none-any.whl (175.2 kB 查看哈希值)

上传时间 Python 3

由以下机构支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面