跳转到主要内容

用于标准化文本字符串的微库

项目描述

文本标准化清理

build

文本标准化是一个Python微型包,包含一组用于简化重用的文本标准化函数。这些函数接受一段unicode或utf-8编码的文本,并移除各种类别的字符,如重音符号、标点符号等。这有助于为后续的文本分析做准备。

警告:当与pyicu结合使用时,该库的性能更好,pyicu是Unicode C库的Python绑定。ICU提供的文本转写比默认的text-unidecode要好得多。

示例

# coding: utf-8
from normality import normalize, slugify, collapse_spaces

text = normalize('Nie wieder "Grüne Süppchen" kochen!')
assert text == 'nie wieder grune suppchen kochen'

slug = slugify('My first blog post!')
assert slug == 'my-first-blog-post'

text = 'this \n\n\r\nhas\tlots of \nodd spacing.'
assert collapse_spaces(text) == 'this has lots of odd spacing.'

许可

normality是开源的,采用标准的MIT许可协议(包含在本次提交的LICENSE文件中)。

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源代码发行版

normality-2.5.0.tar.gz (17.9 kB 查看哈希值)

上传时间 源代码

构建发行版

normality-2.5.0-py2.py3-none-any.whl (16.5 kB 查看哈希值)

上传时间 Python 2 Python 3

支持者: