通过组合不同的单词列表来生成英语单词集合
项目描述
english-words-py
返回通过组合不同的单词列表创建的英语单词集合。例如用法:要从“web2”单词列表中获取一个仅包含小写字母的英语单词集合,您写下以下内容
>>> from english_words import get_english_words_set
>>> web2lowerset = get_english_words_set(['web2'], lower=True)
用法
从主包中导入 get_english_words_set
,如上所示。此函数接受多个参数;第一个是用于组合单词列表的单词列表标识符列表,其余是标志。这些参数在此处描述(以下顺序)
sources
是一个包含与单词列表标识符对应字符串的可迭代对象(请参阅以下“单词列表”子节)alpha
(默认False
)是一个标志,指定应该删除所有非字母数字字符(例如:-
,'
)lower
(默认False
)是一个标志,指定应将所有大写字母转换为小写
每个单词列表都会预先处理以处理上述标志,因此使用任何选项组合都不会导致函数运行速度变慢。
请注意,在组合单词列表时需要小心。例如,在 web2
单词列表中,只有专有名词是大写的,但在 gcide
单词列表中,大多数单词都是大写的。
单词列表
名称/URL | 标识符 | 说明 |
---|---|---|
GCIDE 0.53 索引 | gcide |
在GNU协作国际英语词典0.53中找到的单词。大多数单词首字母大写(不确定首字母大写的规范)。包含一些多词条目(目前必须使用alpha选项排除这些)。 当前未处理Unicode字符;例如,在字典中存在 <ae/ 而不是æ 。理想情况下,这些都应该被转换。 |
web2版本326913 | web2 |
添加额外的单词列表
要添加单词列表,例如标识符为x
,将单词列表(每行一个单词)放入存储库根目录下raw_data
目录中的纯文本文件x.txt
中。然后,要处理单词列表(以及目录中的所有其他单词列表),运行脚本process_raw_data.py
。
安装
使用pip进行安装
pip install english-words
这个包不幸地相当大(约20MB),如果添加更多单词列表或(尤其是)选项,将遇到扩展问题。当这个桥被跨越时,单词列表可能应该由用户选择,而不是简单地包含所有这些;单词列表也可以在客户端预先处理,而不是包含在包中。
项目详情
关闭
english-words-2.0.1.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | a4105c57493bb757a3d8973fcf8e1dc05e7ca09c836dff467c3fb445f84bc43d |
|
MD5 | e97e8f897a5897d18965cb1cf5136179 |
|
BLAKE2b-256 | 94d178b51ad44e4a318ee4f6d32a0b344a918d5fd690de0b0ff6a116b1bc97cf |