跳转到主要内容

俄语和英语(可能还有德语)语言的形态分析器(词性标注器 + 词汇变形引擎)。

项目描述

警告: 由于pymorphy已弃用,请改用 https://github.com/kmike/pymorphy2

俄语和英语语言的形态分析器(词性标注器/词汇变形引擎),使用转换后的AOT(《http://www.aot.ru/download.php》)词典。

文档(主要是俄语): http://pymorphy.rtfd.org/

作者:Mikhail Korobov <kmike84@gmail.com>,许可证:MIT。


警告: pymorphy不再修复错误或添加新功能 - 开发已停止。请使用 https://github.com/kmike/pymorphy2

俄语和英语(可能还有德语)语言的形态分析器。

文档: http://pymorphy.rtfd.org/

讨论: http://groups.google.com/group/pymorphy

仓库: https://bitbucket.org/kmike/pymorphy/

变更历史

0.5.6 (2011-09-11)

  • 版本0.5.5中,由于错误,未包含姓氏分析器文件,并包含了一些不需要的文件 - 已修复。

  • 姓氏分析的改进;

  • 解决了“基辅”和其他一些词的变形问题,词形变化器之前试图将它们作为间接宾格的名词变形;

0.5.5 (2011-08-13)

  • 改进和简化了文档;

  • pymorphy-speedups 使用 Cython 0.15 重新编译(对于 cdb 和 sqlite 且 cache=True,这竟然能带来 1.5 至 2 倍的加速);

  • 修复了词形变化中的错误(有时在词形变化时取的不是词的基本形式);

  • 修复了 pymorphy-speedups 和 django 模板过滤器的兼容性问题(例如,过滤器不适用于 lazy 字符串,如 SafeString 或 ugettext_lazy 字符串);

  • 非常实验性的姓氏词形变化支持(与主要分析器分开;API 将在后续版本中更改)。

0.5.4 (2011-07-15)

  • 删除了在同时更新 pymorphy 和 pymorphy-speedups 时的警告(例如,通过 pip 依赖文件);

  • setup.py 文件和测试启动脚本现在始终使用“原生”pymorphy,而不是系统安装的。

0.5.3 (2011-07-15)

  • 修复了 pymorphy-speedups 版本定义的错误;

  • 现在使用 pymorphy.contrib.tokenizers 替代 pymorphy.split,提供 extract_tokensextract_words 函数;

  • 已修复 windows 下从 hg 仓库安装的问题。

0.5.2 (2011-04-09)

  • 已修复 sqlite 词典中的错误(注意:请下载新的词典进行更新);

  • json 数据表示现在更紧凑,因此使用新词典时应提高速度(尤其是在关闭缓存的情况下);

  • 如果 pymorphy-speedups 版本与 pymorphy 版本不匹配,将关闭加速并显示警告;

  • 修复了文档中的错误;

  • 测试中包含使用 DIALOΓ-2010 的“黄金标准”解析脚本;

  • 在词典转换脚本中增加了交叉检查其正确性的功能。

0.5.1 (2011-02-10)

  • Sqlite 后端现在应该在多线程环境中工作;

  • 修复了 django 中模板过滤器连续应用的问题。

0.5.0 (2010-11-15)

  • 对文档进行了修复和补充;

  • 测试使用 unittest2;

  • 支持可选模块 pymorphy-speedups,使用 Cython 扩展(方法 setup_psyco 也已移至其中)。当使用 pickle 词典时,安装扩展的速度应提高 2 倍以上。对于其他(较慢)的词典类型,相对增长将不那么显著。请注意:当模块安装时,所有字符串都应作为 Unicode 传递(包括拉丁字母和空字符串)。

  • 删除了对 simplejson 的依赖(但最好仍然安装,因为使用 simplejson 时,除了 pickle 之外的所有词典的速度都会提高几倍);

  • 正确处理第二格、属格或与格的词形变化;

  • pluralize_inflected_ru 现在不仅支持名词;

  • 在过滤器中更正确地分割单词;

  • 处理用破折号分隔的单词;

  • 支持解析识别的文本(字符替换)。这相当无用。

  • 已删除 get_normal_forms 方法,因为 get_gram_info 方法本身就会返回每个词的正常形式。

0.4.3 (2010-02-06)

解决了小错误。

0.4.0 (2010-01-07)

简化了安装:增加了对 sqlite 中跨平台词典的支持;

0.3.5 (2009-12-15)

与 django 集成:增加了用于词形变化和一致性的模板过滤器。重新设计了获取词的正常形式的规则(有误的修改)。

0.1.0 (2009-12-07)

pymorphy 几乎全部重写,进行了文档化,作为 Python 包发布,并上传到 pypi.python.org;

0.0.1 (2009-01-18)

这是首次编写后一年就被放弃的版本;

项目详细信息


下载文件

下载您平台所需的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源分发

pymorphy-0.5.6.tar.gz (72.0 kB 查看哈希值)

上传时间:

支持者