跳转到主要内容

用于处理MediaWiki XML转储数据的一套工具。

项目描述

# MediaWiki XML

此库包含一系列用于高效处理MediaWiki XML数据库转储的工具。该模块旨在解决两个重要问题:流式XML解析的复杂性和性能。此库通过简单的[cite]迭代器[cite](https://pythonhosted.org/mwxml/iteration.html)策略实现了内存高效的流处理。此外,此库还实现了分布式处理策略(见[cite]map()[cite](https://pythonhosted.org/mwxml/map.html)),允许同时并行处理多个XML转储文件。

## 示例

>>> import mwxml
>>>
>>> dump = mwxml.Dump.from_file(open("dump.xml"))
>>> print(dump.site_info.name, dump.site_info.dbname)
Wikipedia enwiki
>>>
>>> for page in dump:
...     for revision in page:
...        print(revision.id)
...
1
2
3

## 作者 * Aaron Halfaker – https://github.com/halfak

## 参见 * http://dumps.wikimedia.org/ * http://community.wikia.com/wiki/Help:Database_download

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分布

mwxml-0.3.4.tar.gz (18.2 kB 查看哈希值)

上传时间

构建分布

mwxml-0.3.4-py2.py3-none-any.whl (27.5 kB 查看哈希值)

上传时间 Python 2 Python 3

支持