跳转到主要内容

text-sentence是文本分词器和句子分隔器

项目描述

文本分词器和句子分隔器

库“text-sentence”是文本分词器和句子分隔器。

输入是主函数的文本、已知名称和缩写列表。结果是标记列表。每个标记都有类型和其他属性,例如:

  • 是单词,

  • 是数字,

  • 是罗马数字,

  • 是句子结束,

  • 是缩写,

  • 是名称,

  • 是缩写词,

  • 是章节结束

  • 等。

确定句子结束需要特殊的逻辑和注意,这是将包命名为“text-sentence”的主要原因。

标签

分词,句子分隔器,句子生成器,章节,名称,缩写

作者

Robert Lujo,萨格勒布,克罗地亚,在许可证中找到电子邮件地址

特性

最重要的是
  • 待办事项: …

系统基于Unicode字符串。

查看入门

安装

安装说明 - 如果您已安装pip包 http://pypi.python.org/pypi/pip

pip install text-sentence
如果没有,那么请使用传统方式

开发版本可在 http://bitbucket.org/trebor74hr/text-sentence 查看。

或使用Mercurial克隆

hg clone https://bitbucket.org/trebor74hr/text-sentence

入门指南

使用示例 - 启动python shell

>>> from text_sentence import Tokenizer
>>> t = Tokenizer()
>>> list(t.tokenize("This is first sentence. This is second one!And this is third, is it?"))
[T('this'/sent_start), T('is'), T('first'), T('sentence'), T('.'/sent_end),
 T('this'/sent_start), T('is'), T('second'), T('one'), T('!'/sent_end),
 T('and'/sent_start), T('this'), T('is'), T('third'), T(','/inner_sep),
 T('is'), T('it'), T('?'/sent_end)]

更多示例可以在测试中找到

http://bitbucket.org/trebor74hr/text-sentence/src/tip/text_sentence/test_sentence.txt

其他

由于目前没有良好的文档,进一步信息的最佳来源是阅读模块和test_sentence内的测试。更多信息请参考运行测试。您可以随时阅读源代码。

文档

目前尚无文档。正在进行中…

支持

由于此项目受限于我的空闲时间,支持有限。

报告错误或请求功能

如果您遇到错误,最佳做法是将其报告到bitbucket网页 http://bitbucket.org/trebor74hr/text-sentence

联系我的最佳方式是通过邮件(在LICENCE中查找)。

待办事项列表在readme.txt中(开发版本)。

贡献

由于此项目目前不在稳定的API阶段,贡献应等待一段时间。

运行测试

所有测试都是doctests(不是unittests)。该包中有两种类型的测试

  1. 模块中的doctests,即__init__.py中的

  2. test_sentence.txt中的doctests

直接运行模块将运行1.和2。

要运行测试
  • 进入text_sentence目录

  • 通过运行模块运行测试,例如

    > python __init__.py
    __main__: running doctests
    test_sentence.txt: running doctests
  • 其他

    > python -m"text_sentence"

待办事项

各种事情,请参阅开发版本的readme.txt以获取详细信息。

变更

0.14

ulr1 100621
  • is_contraction token属性 - 例如isn’t或oš’

0.13

ulr1 100619
  • 入门指南中的示例

0.12

ulr1 100619
  • test_sentence.txt安装

  • readme修复主标题

0.11

ulr1 100618
  • 调整测试

  • __init__.py和sentence.py

0.10

ulr1 100617
  • 第一个可安装版本

项目详情


下载文件

下载适合您平台的项目。如果您不确定选择哪个,请了解有关安装包的更多信息。

源分发

text-sentence-0.14.zip (25.8 kB 查看散列)

上传时间

由以下支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面