跳转到主要内容

未提供项目描述

项目描述

segments

Build Status codecov PyPI

DOI

段落数包提供Unicode标准分词例程和正字法分段,实现了来自《Unicode食谱》中正字法配置文件规范的线性算法描述(Moran和Cysouw 2018 DOI)。

命令行使用

创建一个文本文件

$ echo "aäaaöaaüaa" > text.txt

现在查看配置文件

$ cat text.txt | segments profile
Grapheme        frequency       mapping
a       7       a
ä       1       ä
ü       1       ü
ö       1       ö

将配置文件写入文件

$ cat text.txt | segments profile > profile.prf

编辑配置文件

$ more profile.prf
Grapheme        frequency       mapping
aa      0       x
a       7       a
ä       1       ä
ü       1       ü
ö       1       ö

现在无配置文件进行分词

$ cat text.txt | segments tokenize
a ä a a ö a a ü a a

有配置文件进行分词

$ cat text.txt | segments --profile=profile.prf tokenize
a ä aa ö aa ü aa

$ cat text.txt | segments --mapping=mapping --profile=profile.prf tokenize
a ä x ö x ü x

API

>>> from segments import Profile, Tokenizer
>>> t = Tokenizer()
>>> t('abcd')
'a b c d'
>>> prf = Profile({'Grapheme': 'ab', 'mapping': 'x'}, {'Grapheme': 'cd', 'mapping': 'y'})
>>> print(prf)
Grapheme	mapping
ab	x
cd	y
>>> t = Tokenizer(profile=prf)
>>> t('abcd')
'ab cd'
>>> t('abcd', column='mapping')
'x y'

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分发

segments-2.2.1.tar.gz (14.7 kB 查看哈希值)

上传时间

构建分发

segments-2.2.1-py2.py3-none-any.whl (15.0 kB 查看哈希值)

上传时间 Python 2 Python 3

由以下支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面