提供文本分割评估指标和工具的包
项目描述
文本分割是将任意数量的文本分割成段的过程,通过在一些原子单元(例如,语素、单词、行、句子、段落、章节等)之间放置边界来实现。它是许多自然语言处理 (NLP)任务中常见的预处理步骤。
此包包含一系列指标,用于比较文本分割和评估自动文本分割器。包括新的(边界相似度,分割相似度)和传统的(窗口差异,Pk),以及基于边界编辑距离的编码者间协议系数和混淆矩阵。
要查看其使用的一些示例,请阅读文档。
功能支持
包括各种分割比较指标,包括
边界编辑距离 (BED)
边界相似度 (B)
基于BED的混淆矩阵(以及精确率/召回率/F1)
分割相似度 (S)
窗口差异
Pk
此外,还提供了适用于2个或更多编码器的基于B的分割编码器间一致性系数,包括
Fleiss的Pi(即Siegel和Castellan的K)
Fleiss的Kappa
安装
要安装SegEval,只需运行
$ pip install segeval
文档
引用SegEval
如果您正在使用此软件进行研究,请引用ACL论文 [PDF] 以及描述此工作的论文 [PDF],如果需要深入了解
Chris Fournier. 2013. 使用边界编辑距离评估文本分割。第51届计算语言学协会年度会议论文集。(ACL 2013),即将发表。计算语言学协会,Stroudsburg,PA,美国。
Chris Fournier. 2013. 评估文本分割。(硕士论文)。渥太华大学。
BibTeX
@inproceedings{Fournier2013a,
author = {Fournier, Chris},
year = {2013},
title = {{Evaluating Text Segmentation using Boundary Edit Distance}},
booktitle = {Proceedings of 51st Annual Meeting of the Association for Computational Linguistics},
publisher = {Association for Computational Linguistics},
location = {Sophia, Bulgaria},
pages = {to appear},
address = {Stroudsburg, PA, USA}
}
@mastersthesis{Fournier2013b,
author = {Fournier, Chris},
title = {Evaluating Text Segmentation},
school = {University of Ottawa},
year = {2013}
}
项目详情
关闭
segeval-2.0.11.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | a13babad83462b954ae6ccfb698bdac050c2231bfb551c2838ae4b70fa1fd5af |
|
MD5 | 0ad78aa3239eca35069bc5578fb229b3 |
|
BLAKE2b-256 | 3a81a3022624a621fe29d9ef2fddaadf637b42d005c233b4046e6b5ab8173312 |