跳转到主要内容

通过组合不同的单词列表来生成英语单词集合

项目描述

PyPI

english-words-py

返回通过组合不同的单词列表创建的英语单词集合。例如用法:要从“web2”单词列表中获取一个仅包含小写字母的英语单词集合,您写下以下内容

>>> from english_words import get_english_words_set
>>> web2lowerset = get_english_words_set(['web2'], lower=True)

用法

从主包中导入 get_english_words_set,如上所示。此函数接受多个参数;第一个是用于组合单词列表的单词列表标识符列表,其余是标志。这些参数在此处描述(以下顺序)

  • sources 是一个包含与单词列表标识符对应字符串的可迭代对象(请参阅以下“单词列表”子节)
  • alpha(默认 False)是一个标志,指定应该删除所有非字母数字字符(例如: -'
  • lower(默认 False )是一个标志,指定应将所有大写字母转换为小写

每个单词列表都会预先处理以处理上述标志,因此使用任何选项组合都不会导致函数运行速度变慢。

请注意,在组合单词列表时需要小心。例如,在 web2 单词列表中,只有专有名词是大写的,但在 gcide 单词列表中,大多数单词都是大写的。

单词列表

名称/URL 标识符 说明
GCIDE 0.53 索引 gcide 在GNU协作国际英语词典0.53中找到的单词。大多数单词首字母大写(不确定首字母大写的规范)。包含一些多词条目(目前必须使用alpha选项排除这些)。

当前未处理Unicode字符;例如,在字典中存在<ae/而不是æ。理想情况下,这些都应该被转换。
web2版本326913 web2

添加额外的单词列表

要添加单词列表,例如标识符为x,将单词列表(每行一个单词)放入存储库根目录下raw_data目录中的纯文本文件x.txt中。然后,要处理单词列表(以及目录中的所有其他单词列表),运行脚本process_raw_data.py

安装

使用pip进行安装

pip install english-words

这个包不幸地相当大(约20MB),如果添加更多单词列表或(尤其是)选项,将遇到扩展问题。当这个桥被跨越时,单词列表可能应该由用户选择,而不是简单地包含所有这些;单词列表也可以在客户端预先处理,而不是包含在包中。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源分布

english-words-2.0.1.tar.gz (8.2 MB 查看哈希值)

上传时间