Python中的命名实体识别的高级库
项目描述
Python中命名实体识别的高级库。
资源
安装
pip install nerblackbox
关于
从许多可用源中选择一个数据集。然后通过几个简单步骤训练、评估和应用程序语言模型。
1. 数据
从 HuggingFace (HF)、本地文件系统 (LF)、注释工具 (AT) 服务器或内置的 BI 数据集中选择一个数据集
dataset = Dataset("conll2003", source="HF") # HuggingFace dataset = Dataset("my_dataset", source="LF") # Local Filesystem dataset = Dataset("swe_nerc", source="BI") # Built-in
设置数据集
dataset.set_up()
2. 训练
通过选择预训练模型和数据集来定义训练
training = Training("my_training", model="bert-base-cased", dataset="conll2003")
运行训练并获取微调模型的性能
training.run() training.get_result(metric="f1", level="entity", phase="test") # 0.9045
3. 评估
加载模型
model = Model.from_training("my_training")
评估模型
results = model.evaluate_on_dataset("ehealth_kd", phase="test") results["micro"]["entity"]["f1"] # 0.9045
4. 推理
加载模型
model = Model.from_training("my_training")
让模型预测
model.predict("The United Nations has never recognised Jakarta's move.") # [[ # {'char_start': '4', 'char_end': '18', 'token': 'United Nations', 'tag': 'ORG'}, # {'char_start': '40', 'char_end': '47', 'token': 'Jakarta', 'tag': 'LOC'} # ]]
还有更多!请参阅文档以开始。
特性
数据
集成来自多个来源的数据集(HuggingFace、注释工具等)
支持多种数据集类型(标准、预分词)
支持多种注释方案(IO、BIO、BILOU)
文本编码
训练
自适应微调
超参数搜索
使用不同随机种子进行多次运行
训练结果的详细分析
评估
对任何数据集上的任何模型进行评估
推理
灵活的模型推理(实体/词级,概率,等等)
其他
与HuggingFace完全兼容
GPU支持
语言无关性
有关详细信息,请参阅文档。
引用
@misc{nerblackbox, author = {Stollenwerk, Felix}, title = {nerblackbox: a high-level library for named entity recognition in python}, year = {2021}, url = {https://github.com/flxst/nerblackbox}, }
项目详情
下载文件
下载适用于您的平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源分发
nerblackbox-1.0.0.tar.gz (127.0 kB 查看哈希值)
构建分发
nerblackbox-1.0.0-py3-none-any.whl (175.2 kB 查看哈希值)
关闭
nerblackbox-1.0.0.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | f978f5a6fadb1a832b6ebab75ba640fe18f1445a5543cf67bbcd6c551df04cc4 |
|
MD5 | 28edbd0e5d6eb80e9555c819275e9090 |
|
BLAKE2b-256 | 8e7db5d10381102a98b2c75488afe9015fe469e755be8f091e8abae963d50f0e |
关闭
nerblackbox-1.0.0-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 64eea60cc76f614fe1e8ca808d7f77445c1934a79d102ab0c028775f2861ceae |
|
MD5 | 7552781ae2cd7bcc846ee9fb42f7592b |
|
BLAKE2b-256 | 46887eb532ef4657a7d4e601fe9290b2ed8a441602b596fca9b3c49a2f6d1ba2 |