跳转到主要内容

一组支持MediaWiki数据流处理的脚本和实用程序。

项目描述

一套用于流处理MediaWiki数据的实用程序。

用法

mwstream (-h | --help)

mwstream <utility> [-h|--help]

数据处理实用程序

diffs2persistence

使用包含diff信息的修订JSON块生成标记持久性统计信息。

dump2json

将XML转储转换为修订JSON块的流

dump2diffs

直接从XML转储计算diff

json2diffs

计算并添加“diff”字段到修订JSON块的流

mend_diffs

修复分块和顺序错误计算的diff

persistence2stats

将标记持久性统计聚合到修订统计

wikihadoop2json

将Wikihadoop处理的XML页面流转换为JSON块

通用实用程序

json2tsv

将JSON块流转换为基于一组 字段名 的制表符分隔值。

normalize

将旧版本的RevisionDocument JSON架构标准化,以对应最新的架构版本。

验证

根据提供的模式验证JSON。

truncate_text

将JSON对象中的‘text’字段截断到限制的Unicode字符长度。(解决内容垃圾邮件问题)并添加一个布尔值‘truncated’字段。

安装

pip install mwstreaming

由以下组织支持