未提供项目描述
项目描述
segments
段落数包提供Unicode标准分词例程和正字法分段,实现了来自《Unicode食谱》中正字法配置文件规范的线性算法描述(Moran和Cysouw 2018 )。
命令行使用
创建一个文本文件
$ echo "aäaaöaaüaa" > text.txt
现在查看配置文件
$ cat text.txt | segments profile
Grapheme frequency mapping
a 7 a
ä 1 ä
ü 1 ü
ö 1 ö
将配置文件写入文件
$ cat text.txt | segments profile > profile.prf
编辑配置文件
$ more profile.prf
Grapheme frequency mapping
aa 0 x
a 7 a
ä 1 ä
ü 1 ü
ö 1 ö
现在无配置文件进行分词
$ cat text.txt | segments tokenize
a ä a a ö a a ü a a
有配置文件进行分词
$ cat text.txt | segments --profile=profile.prf tokenize
a ä aa ö aa ü aa
$ cat text.txt | segments --mapping=mapping --profile=profile.prf tokenize
a ä x ö x ü x
API
>>> from segments import Profile, Tokenizer
>>> t = Tokenizer()
>>> t('abcd')
'a b c d'
>>> prf = Profile({'Grapheme': 'ab', 'mapping': 'x'}, {'Grapheme': 'cd', 'mapping': 'y'})
>>> print(prf)
Grapheme mapping
ab x
cd y
>>> t = Tokenizer(profile=prf)
>>> t('abcd')
'ab cd'
>>> t('abcd', column='mapping')
'x y'
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源分发
segments-2.2.1.tar.gz (14.7 kB 查看哈希值)
构建分发
segments-2.2.1-py2.py3-none-any.whl (15.0 kB 查看哈希值)
关闭
segments-2.2.1.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 515ae188f21d24e420d48ad45689edc747d961d6b52fde22e47500a8d85f2741 |
|
MD5 | 1db512116f28df6b9a3326d9fc19558f |
|
BLAKE2b-256 | 0ba6b678440988daa66ac151bc3ca24f2ad8dcfdb591604f5c2b83e2515b1f58 |
关闭
segments-2.2.1-py2.py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 069860ae5a499ad7bd86e23ee52250a16e61ba3474c17e515b16d494ac1423c1 |
|
MD5 | 05273ad48b946ded53a686fe0136c756 |
|
BLAKE2b-256 | 93d474dba5011533e66becf35aae5cf1d726e760f445db052592bad70e75305c |