一组支持MediaWiki数据流处理的脚本和实用程序。
项目描述
一套用于流处理MediaWiki数据的实用程序。
用法
mwstream (-h | --help)
mwstream <utility> [-h|--help]
数据处理实用程序
- diffs2persistence
使用包含diff信息的修订JSON块生成标记持久性统计信息。
- dump2json
将XML转储转换为修订JSON块的流
- dump2diffs
直接从XML转储计算diff
- json2diffs
计算并添加“diff”字段到修订JSON块的流
- mend_diffs
修复分块和顺序错误计算的diff
- persistence2stats
将标记持久性统计聚合到修订统计
- wikihadoop2json
将Wikihadoop处理的XML页面流转换为JSON块
通用实用程序
- json2tsv
将JSON块流转换为基于一组 字段名 的制表符分隔值。
- normalize
将旧版本的RevisionDocument JSON架构标准化,以对应最新的架构版本。
- 验证
根据提供的模式验证JSON。
- truncate_text
将JSON对象中的‘text’字段截断到限制的Unicode字符长度。(解决内容垃圾邮件问题)并添加一个布尔值‘truncated’字段。
安装
pip install mwstreaming
项目详情
下载文件
下载您平台上的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源代码发行版
mwstreaming-0.5.5.zip (23.3 kB 查看哈希值)
mwstreaming-0.5.5.tar.gz (12.5 kB 查看哈希值)