text-sentence是文本分词器和句子分隔器
项目描述
文本分词器和句子分隔器
库“text-sentence”是文本分词器和句子分隔器。
输入是主函数的文本、已知名称和缩写列表。结果是标记列表。每个标记都有类型和其他属性,例如:
是单词,
是数字,
是罗马数字,
是句子结束,
是缩写,
是名称,
是缩写词,
是章节结束
等。
确定句子结束需要特殊的逻辑和注意,这是将包命名为“text-sentence”的主要原因。
特性
- 最重要的是
待办事项: …
系统基于Unicode字符串。
查看入门。
安装
安装说明 - 如果您已安装pip包 http://pypi.python.org/pypi/pip
pip install text-sentence
- 如果没有,那么请使用传统方式
解压
打开shell
进入分发目录
python setup.py install
开发版本可在 http://bitbucket.org/trebor74hr/text-sentence 查看。
或使用Mercurial克隆
hg clone https://bitbucket.org/trebor74hr/text-sentence
入门指南
使用示例 - 启动python shell
>>> from text_sentence import Tokenizer >>> t = Tokenizer() >>> list(t.tokenize("This is first sentence. This is second one!And this is third, is it?")) [T('this'/sent_start), T('is'), T('first'), T('sentence'), T('.'/sent_end), T('this'/sent_start), T('is'), T('second'), T('one'), T('!'/sent_end), T('and'/sent_start), T('this'), T('is'), T('third'), T(','/inner_sep), T('is'), T('it'), T('?'/sent_end)]
更多示例可以在测试中找到
http://bitbucket.org/trebor74hr/text-sentence/src/tip/text_sentence/test_sentence.txt
其他
由于目前没有良好的文档,进一步信息的最佳来源是阅读模块和test_sentence内的测试。更多信息请参考运行测试。您可以随时阅读源代码。
文档
目前尚无文档。正在进行中…
支持
由于此项目受限于我的空闲时间,支持有限。
报告错误或请求功能
如果您遇到错误,最佳做法是将其报告到bitbucket网页 http://bitbucket.org/trebor74hr/text-sentence。
联系我的最佳方式是通过邮件(在LICENCE中查找)。
待办事项列表在readme.txt中(开发版本)。
贡献
由于此项目目前不在稳定的API阶段,贡献应等待一段时间。
运行测试
所有测试都是doctests(不是unittests)。该包中有两种类型的测试
模块中的doctests,即__init__.py中的
test_sentence.txt中的doctests
直接运行模块将运行1.和2。
- 要运行测试
进入text_sentence目录
通过运行模块运行测试,例如
> python __init__.py __main__: running doctests test_sentence.txt: running doctests
其他
> python -m"text_sentence"
待办事项
各种事情,请参阅开发版本的readme.txt以获取详细信息。
变更
0.14
- ulr1 100621
is_contraction token属性 - 例如isn’t或oš’
0.13
- ulr1 100619
入门指南中的示例
0.12
- ulr1 100619
test_sentence.txt安装
readme修复主标题
0.11
- ulr1 100618
调整测试
__init__.py和sentence.py
0.10
- ulr1 100617
第一个可安装版本
项目详情
text-sentence-0.14.zip的散列
算法 | 散列摘要 | |
---|---|---|
SHA256 | 76a88662c42c8e9d62b0eb122ae3ee782d3ebce5af90e2db594966bf7361abf5 |
|
MD5 | 039393aca75378813ca17d1c09c7b9df |
|
BLAKE2b-256 | 0a7195691d938ba0f47e1573fd34af9c7bdc0f94be27a3d36eeedc64eb2fed64 |