一个小型模块,适用于文本生成器,允许您过滤字符串中的不良词汇。
项目描述
wordfilter
一个小型模块,适用于文本生成器。它允许您过滤字符串中的不良词汇。
入门指南
使用以下命令安装模块:npm install wordfilter
var wordfilter = require('wordfilter');
wordfilter.blacklisted('does this string have a bad word in it?'); // "false"
// clear the list entirely
wordfilter.clearList();
// add new words
wordfilter.addWords(['zebra','elephant']);
wordfilter.blacklisted('this string has zebra in it'); // "true"
// remove a word
wordfilter.removeWord('zebra');
wordfilter.blacklisted('this string has zebra in it'); // "false"
或使用Python:使用以下命令安装模块:pip install wordfilter
from wordfilter import Wordfilter
wordfilter = Wordfilter()
wordfilter.blacklisted('does this string have a bad word in it?') # False
# clear the list entirely
wordfilter.clearList()
# add new words
wordfilter.addWords(['zebra','elephant'])
wordfilter.blacklisted('this string has zebra in it') # True
文档
这是一个从我在许多Twitter机器人中使用的代码中改编而来的单词过滤器。它基于我手工挑选的单词列表,用于从我的机器人中排除:基本上,它是我不会说的东西的列表。一般来说,它们是“压迫性词汇”,也就是我不会说的种族主义/性别歧视/歧视性事物。
这个列表并不全面,我一直在添加单词。如果您想提交一个问题或拉取请求来添加更多单词,请这样做,但请理解这主要用于我的项目,我可能不会同意添加某些单词。(例如,我对污言秽语没有问题,所以“shit”和“fuck”永远不会在这个列表上。)
单词不区分大小写。
此外,由于英语语言的复杂性,我正在考虑将包含不良词子串的内容列入黑名单。例如,“homogenous”虽然不是不良词,但它包含子串“homo”,因此会被过滤。原因是新俚语经常使用复合词出现,我无法跟上它们。我愿意牺牲一些像“homogenous”和“巴基斯坦”这样的词,以避免误判。
贡献
在没有正式风格指南的情况下,请注意保持现有的编码风格。为新或更改的功能添加单元测试。使用Grunt检查你的代码。
许可证
版权(c)2013 Darius Kazemi 署名许可下。
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源分布
wordfilter-0.2.7.tar.gz (4.4 kB 查看哈希值)
构建分布
wordfilter-0.2.7-py3-none-any.whl (4.4 kB 查看哈希值)
关闭
wordfilter-0.2.7.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 81b5d8077d1004d5a6fd56e02c506e93f49ef30920e235fa28ff7950a7b44c31 |
|
MD5 | 58b2ad5b141594ee825b466e65381cc7 |
|
BLAKE2b-256 | 40230674c5228f9f45079fa82821ec7861fb81c5d4943b73e2d58501595a9664 |
关闭
wordfilter-0.2.7-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | bca1959109fed57051e2484dc2b47f1f8b1d3241eaa6ea50a6151d19f2466638 |
|
MD5 | d6309fc326520413af0ef830130dead5 |
|
BLAKE2b-256 | ea695093450f36945ba1e06163a5cb3feb414468cf3fa25fb13ad6c06fa2064b |