跳转到主要内容

一组支持MediaWiki数据流处理的脚本和实用程序。

项目描述

一套用于流处理MediaWiki数据的实用程序。

用法

mwstream (-h | --help)

mwstream <utility> [-h|--help]

数据处理实用程序

diffs2persistence

使用包含diff信息的修订JSON块生成标记持久性统计信息。

dump2json

将XML转储转换为修订JSON块的流

dump2diffs

直接从XML转储计算diff

json2diffs

计算并添加“diff”字段到修订JSON块的流

mend_diffs

修复分块和顺序错误计算的diff

persistence2stats

将标记持久性统计聚合到修订统计

wikihadoop2json

将Wikihadoop处理的XML页面流转换为JSON块

通用实用程序

json2tsv

将JSON块流转换为基于一组 字段名 的制表符分隔值。

normalize

将旧版本的RevisionDocument JSON架构标准化,以对应最新的架构版本。

验证

根据提供的模式验证JSON。

truncate_text

将JSON对象中的‘text’字段截断到限制的Unicode字符长度。(解决内容垃圾邮件问题)并添加一个布尔值‘truncated’字段。

安装

pip install mwstreaming

项目详情


下载文件

下载您平台上的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源代码发行版

mwstreaming-0.5.5.zip (23.3 kB 查看哈希值)

上传时间 源代码

mwstreaming-0.5.5.tar.gz (12.5 kB 查看哈希值)

上传时间 源代码

由以下组织支持