跳转到主要内容

一个小型模块,适用于文本生成器,允许您过滤字符串中的不良词汇。

项目描述

wordfilter

一个小型模块,适用于文本生成器。它允许您过滤字符串中的不良词汇。

入门指南

使用以下命令安装模块:npm install wordfilter

var wordfilter = require('wordfilter');
wordfilter.blacklisted('does this string have a bad word in it?'); // "false"

// clear the list entirely
wordfilter.clearList();

// add new words
wordfilter.addWords(['zebra','elephant']);
wordfilter.blacklisted('this string has zebra in it'); // "true"

// remove a word
wordfilter.removeWord('zebra');
wordfilter.blacklisted('this string has zebra in it'); // "false"

或使用Python:使用以下命令安装模块:pip install wordfilter

from wordfilter import Wordfilter
wordfilter = Wordfilter()
wordfilter.blacklisted('does this string have a bad word in it?')  # False

# clear the list entirely
wordfilter.clearList()

# add new words
wordfilter.addWords(['zebra','elephant'])
wordfilter.blacklisted('this string has zebra in it')  # True

文档

这是一个从我在许多Twitter机器人中使用的代码中改编而来的单词过滤器。它基于我手工挑选的单词列表,用于从我的机器人中排除:基本上,它是我不会说的东西的列表。一般来说,它们是“压迫性词汇”,也就是我不会说的种族主义/性别歧视/歧视性事物。

这个列表并不全面,我一直在添加单词。如果您想提交一个问题或拉取请求来添加更多单词,请这样做,但请理解这主要用于我的项目,我可能不会同意添加某些单词。(例如,我对污言秽语没有问题,所以“shit”和“fuck”永远不会在这个列表上。)

单词不区分大小写。

此外,由于英语语言的复杂性,我正在考虑将包含不良词子串的内容列入黑名单。例如,“homogenous”虽然不是不良词,但它包含子串“homo”,因此会被过滤。原因是新俚语经常使用复合词出现,我无法跟上它们。我愿意牺牲一些像“homogenous”和“巴基斯坦”这样的词,以避免误判。

贡献

在没有正式风格指南的情况下,请注意保持现有的编码风格。为新或更改的功能添加单元测试。使用Grunt检查你的代码。

许可证

版权(c)2013 Darius Kazemi 署名许可下。

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分布

wordfilter-0.2.7.tar.gz (4.4 kB 查看哈希值)

上传时间:

构建分布

wordfilter-0.2.7-py3-none-any.whl (4.4 kB 查看哈希值)

上传时间: Python 3

由以下支持