一个用于自动检测维基百科文章评估类的库。
项目描述
维基百科文章质量分类
此库提供了一组用于自动检测维基百科文章评估类的实用工具。有关更多信息,请参阅完整的文档https://articlequality.readthedocs.io。
仅兼容Python 3.x。抱歉。
- 安装:
pip install articlequality
- 模型: https://github.com/wikimedia/articlequality/tree/master/models
- 文档: https://articlequality.readthedocs.io
基本用法
>>> import articlequality
>>> from revscoring import Model
>>>
>>> scorer_model = Model.load(open("models/enwiki.nettrom_wp10.gradient_boosting.model", "rb"))
>>>
>>> text = "I am the text of a page. I have a <ref>word</ref>"
>>> articlequality.score(scorer_model, text)
{'prediction': 'stub',
'probability': {'stub': 0.27156163795807853,
'b': 0.14707452309674252,
'fa': 0.16844898943510833,
'c': 0.057668704007171959,
'ga': 0.21617801281707663,
'start': 0.13906813268582238}}
安装
需求
- Python 3.5, 3.6 或 3.7
- revscoring 的所有系统要求revscoring
安装步骤
- 克隆此仓库
- 安装包及其依赖项
python setup.py install
- 您可以通过运行
make enwiki_models
来构建英语维基百科文章质量模型,或者运行make wikidatawiki_models
来构建 Wikidata 的项目质量模型,以验证您的安装是否成功。
重新训练模型
要重新训练一个模型,运行 make -B MODEL
,例如 make -B wikidatawiki_models
。这将重新下载标签,从修订中提取特征,然后重新训练和重新评分模型。
要跳过重新下载训练标签和重新提取特征,只需在 datasets/
目录中创建文件并运行不带 -B
标志的 make
命令即可。
运行测试
示例
pytest -vv tests/feature_lists/test_wikidatawiki.py
作者
- Aaron Halfaker -- https://github.com/halfak
- Morten Warncke-Wang -- https://github.com/nettrom
项目详情
关闭
articlequality-0.4.4.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | c2a5b504890e5e41db17e44cdc5b473da73dbaa094b004013af9b4d771717262 |
|
MD5 | e2d569caca034ea693310672b4f40ee4 |
|
BLAKE2b-256 | bb34f0817607bff0e4b1f6da7c328cd06db69f6adbc5aec06be0b53ed06f0ca3 |
关闭
articlequality-0.4.4-py2.py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | eae688b3bf7d1c0b2a7b72e7c1bb92f18e40b604efb3ff138c091f68ed4e3b2d |
|
MD5 | 1a6328818e9f111602d8c26f176f7d40 |
|
BLAKE2b-256 | c471a732ea3f6296f8906956eaed94aeff6485890a49070528cc2f3088860946 |