针对ZCTextIndex的Unicode词典
项目描述
动机
标准的ZCTextIndex词典仅处理8位字符串(前提是你正确设置了zope.conf locale设置)。它不处理Unicode或UTF-8。UnicodeLexicon填补了这个空白。
安装
此产品为Zope添加了一个ZCTextIndex Unicode词典类型。词典包含单词分隔符、停用词移除器、大小写正常化器和两个重音正常化器。
如果您已安装GenericSetup,您可以使用包含的扩展配置文件在您的portal_catalog中创建UnicodeLexicon并更新标题、描述和可搜索文本 ZCTextIndexes。
从UnicodeLexicon 1.0没有升级路径。如果您系统中有1.0,您必须删除并重新创建词典。
管道元素
分隔符与所有使用空格字符分隔单词的语言一起工作。
停用词移除器仅了解英语语言停用词。
重音正常化器有两种风味。有一种用于拉丁和西欧文本(fr、es、pt、it、en、nl)的正常化器,还有一种用于德语和斯堪的纳维亚文本(de、dk、no、se、fi、is)的正常化器。后者保留了重音字符ä、ö和ü。
自定义管道元素
可以通过ZCML注册额外的管道元素。例如。
<configure xmlns="http://namespaces.zope.org/zope" xmlns:unicodelexicon="http://namespaces.zope.org/unicodelexicon"> <include package="Products.UnicodeLexicon" file="meta.zcml" /> <unicodelexicon:registerPipelineElement group="Accent Normalizer" name="Normalize accented chars (Custom text)" factory="my.package.pipeline.MyCustomNormalizer" /> </configure>
默认编码
词典假定Unicode或UTF-8。如果您的应用程序使用不同的编码,您可以通过将编码注册为实用程序来覆盖默认设置。
<configure xmlns="http://namespaces.zope.org/zope"> <utility provides="Products.UnicodeLexicon.interfaces.IDefaultEncoding" component="my.package.pipeline.defaultEncoding" /> </configure>
变更日志
2.2 - 2011-01-30
允许在ZCML中覆盖默认编码。[stefan]
2.1 - 2011-01-26
添加在ZCML中注册管道元素的功能。[stefan]
修复更新PipelineFactory时的一个错误。[stefan]
2.0 - 2011-01-21
添加一个有序的PipelineFactory。[stefan]
添加一个由Marc-Auréle Darche最初贡献的变音符号规范化管道元素。[stefan]
以Python egg形式发布。[stefan]
1.0 - 2006-08-14
初始发布。[stefan]
项目详情
Products.UnicodeLexicon-2.2.zip的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 98488a725a281679674c0fa80bf9a160b1a25a29207a669df115de8c1e311ed5 |
|
MD5 | 67cfba7757f9a7b14c4d23ee43ef4c0b |
|
BLAKE2b-256 | 4d11e2fa879ab94baa7aa01bb6dd7b28de78f101f6679f8907e6abc25cf6eb04 |