用于标准化文本字符串的微库
项目描述
文本标准化清理
文本标准化是一个Python微型包,包含一组用于简化重用的文本标准化函数。这些函数接受一段unicode或utf-8编码的文本,并移除各种类别的字符,如重音符号、标点符号等。这有助于为后续的文本分析做准备。
警告:当与pyicu
结合使用时,该库的性能更好,pyicu
是Unicode C库的Python绑定。ICU提供的文本转写比默认的text-unidecode
要好得多。
示例
# coding: utf-8
from normality import normalize, slugify, collapse_spaces
text = normalize('Nie wieder "Grüne Süppchen" kochen!')
assert text == 'nie wieder grune suppchen kochen'
slug = slugify('My first blog post!')
assert slug == 'my-first-blog-post'
text = 'this \n\n\r\nhas\tlots of \nodd spacing.'
assert collapse_spaces(text) == 'this has lots of odd spacing.'
许可
normality
是开源的,采用标准的MIT许可协议(包含在本次提交的LICENSE
文件中)。
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源代码发行版
normality-2.5.0.tar.gz (17.9 kB 查看哈希值)
构建发行版
normality-2.5.0-py2.py3-none-any.whl (16.5 kB 查看哈希值)
关闭
normality-2.5.0.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | a55133e972b81c4a3bf8b6dc419f262f94a4fd6f636297046f74d35c93abe153 |
|
MD5 | 12f8652756c93117af3c32e54d9747be |
|
BLAKE2b-256 | e0126452229afa2331de60fe93324dd9e2eb6034cb2e2faf6867419d9c51d356 |
关闭
normality-2.5.0-py2.py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | d9f48daf32e351e88b9e372787c1da437df9d0d818aec6e2834b02102378df62 |
|
MD5 | b3cb05cd990e13d1ba497cfe8d6f85a8 |
|
BLAKE2b-256 | ae29cdd620678624e76de4034d1d69eb978cae4a96983dde963586f711261196 |