跳转到主要内容

针对ZCTextIndex的Unicode词典

项目描述

动机

标准的ZCTextIndex词典仅处理8位字符串(前提是你正确设置了zope.conf locale设置)。它不处理Unicode或UTF-8。UnicodeLexicon填补了这个空白。

安装

此产品为Zope添加了一个ZCTextIndex Unicode词典类型。词典包含单词分隔符、停用词移除器、大小写正常化器和两个重音正常化器。

如果您已安装GenericSetup,您可以使用包含的扩展配置文件在您的portal_catalog中创建UnicodeLexicon并更新标题描述可搜索文本 ZCTextIndexes。

从UnicodeLexicon 1.0没有升级路径。如果您系统中有1.0,您必须删除并重新创建词典。

管道元素

分隔符与所有使用空格字符分隔单词的语言一起工作。

停用词移除器仅了解英语语言停用词。

重音正常化器有两种风味。有一种用于拉丁和西欧文本(fr、es、pt、it、en、nl)的正常化器,还有一种用于德语和斯堪的纳维亚文本(de、dk、no、se、fi、is)的正常化器。后者保留了重音字符ä、ö和ü。

自定义管道元素

可以通过ZCML注册额外的管道元素。例如。

<configure
  xmlns="http://namespaces.zope.org/zope"
  xmlns:unicodelexicon="http://namespaces.zope.org/unicodelexicon">

  <include package="Products.UnicodeLexicon" file="meta.zcml" />

  <unicodelexicon:registerPipelineElement
    group="Accent Normalizer"
    name="Normalize accented chars (Custom text)"
    factory="my.package.pipeline.MyCustomNormalizer"
    />

</configure>

默认编码

词典假定Unicode或UTF-8。如果您的应用程序使用不同的编码,您可以通过将编码注册为实用程序来覆盖默认设置。

<configure
  xmlns="http://namespaces.zope.org/zope">

  <utility
    provides="Products.UnicodeLexicon.interfaces.IDefaultEncoding"
    component="my.package.pipeline.defaultEncoding"
    />

</configure>

变更日志

2.2 - 2011-01-30

  • 允许在ZCML中覆盖默认编码。[stefan]

2.1 - 2011-01-26

  • 添加在ZCML中注册管道元素的功能。[stefan]

  • 修复更新PipelineFactory时的一个错误。[stefan]

2.0 - 2011-01-21

  • 添加一个有序的PipelineFactory。[stefan]

  • 添加一个由Marc-Auréle Darche最初贡献的变音符号规范化管道元素。[stefan]

  • 以Python egg形式发布。[stefan]

1.0 - 2006-08-14

  • 初始发布。[stefan]

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源代码发行版

Products.UnicodeLexicon-2.2.zip (26.5 kB 查看哈希值)

上传时间 源代码

由以下支持