跳转到主要内容

提供文本分割评估指标和工具的包

项目描述

https://travis-ci.org/cfournie/segmentation.evaluation.png?branch=master https://coveralls.io/repos/cfournie/segmentation.evaluation/badge.png?branch=master https://pypip.in/v/segeval/badge.png https://pypip.in/d/segeval/badge.png

文本分割是将任意数量的文本分割成段的过程,通过在一些原子单元(例如,语素、单词、行、句子、段落、章节等)之间放置边界来实现。它是许多自然语言处理 (NLP)任务中常见的预处理步骤。

此包包含一系列指标,用于比较文本分割和评估自动文本分割器。包括新的(边界相似度分割相似度)和传统的(窗口差异Pk),以及基于边界编辑距离的编码者间协议系数和混淆矩阵。

要查看其使用的一些示例,请阅读文档

功能支持

包括各种分割比较指标,包括

  • 边界编辑距离 (BED)

  • 边界相似度 (B)

  • 基于BED的混淆矩阵(以及精确率/召回率/F1)

  • 分割相似度 (S)

  • 窗口差异

  • Pk

此外,还提供了适用于2个或更多编码器的基于B的分割编码器间一致性系数,包括

  • Fleiss的Pi(即Siegel和Castellan的K)

  • Fleiss的Kappa

安装

要安装SegEval,只需运行

$ pip install segeval

文档

文档可在http://segeval.readthedocs.org/找到。

引用SegEval

如果您正在使用此软件进行研究,请引用ACL论文 [PDF] 以及描述此工作的论文 [PDF],如果需要深入了解

  • Chris Fournier. 2013. 使用边界编辑距离评估文本分割。第51届计算语言学协会年度会议论文集。(ACL 2013),即将发表。计算语言学协会,Stroudsburg,PA,美国。

  • Chris Fournier. 2013. 评估文本分割。(硕士论文)。渥太华大学。

BibTeX

@inproceedings{Fournier2013a,
        author          = {Fournier, Chris},
        year            = {2013},
        title           = {{Evaluating Text Segmentation using Boundary Edit Distance}},
        booktitle       = {Proceedings of 51st Annual Meeting of the Association for Computational Linguistics},
        publisher       = {Association for Computational Linguistics},
        location        = {Sophia, Bulgaria},
        pages           = {to appear},
        address         = {Stroudsburg, PA, USA}
}

@mastersthesis{Fournier2013b,
        author          = {Fournier, Chris},
        title           = {Evaluating Text Segmentation},
        school          = {University of Ottawa},
        year            = {2013}
}

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源代码分发

segeval-2.0.11.tar.gz (39.8 kB 查看哈希值)

上传时间 源代码

支持者