用于处理MediaWiki XML转储数据的一套工具。
项目描述
# MediaWiki XML
此库包含一系列用于高效处理MediaWiki XML数据库转储的工具。该模块旨在解决两个重要问题:流式XML解析的复杂性和性能。此库通过简单的[cite]迭代器[cite](https://pythonhosted.org/mwxml/iteration.html)策略实现了内存高效的流处理。此外,此库还实现了分布式处理策略(见[cite]map()[cite](https://pythonhosted.org/mwxml/map.html)),允许同时并行处理多个XML转储文件。
安装: pip install mwxml
许可证: MIT
## 示例
>>> import mwxml >>> >>> dump = mwxml.Dump.from_file(open("dump.xml")) >>> print(dump.site_info.name, dump.site_info.dbname) Wikipedia enwiki >>> >>> for page in dump: ... for revision in page: ... print(revision.id) ... 1 2 3
## 作者 * Aaron Halfaker – https://github.com/halfak
## 参见 * http://dumps.wikimedia.org/ * http://community.wikia.com/wiki/Help:Database_download
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源分布
mwxml-0.3.4.tar.gz (18.2 kB 查看哈希值)
构建分布
mwxml-0.3.4-py2.py3-none-any.whl (27.5 kB 查看哈希值)
关闭
mwxml-0.3.4.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 7a37f745f770704a7419efbde9d391b874b9071dbc192b3b1f81c3d4b52775ee |
|
MD5 | 93b2430b466dca644003f79612a3d5c3 |
|
BLAKE2b-256 | f44506b0018fcb876174e0ef996d936c114a5375e23c7121c6eb84ddfc3c5543 |
关闭
mwxml-0.3.4-py2.py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | f109225a47f629a1ddf73826c462efb9dc6fa6df7c546c6ac452424cc6034d52 |
|
MD5 | 0dec28f32120d2772976cb465a3ebc62 |
|
BLAKE2b-256 | 2a3bdab72fc52e0b89034b2e1bb191024e5415fa9afab93afa1e997295d44c4b |