跳转到主要内容

通过去除模板、HTML标签、表格、标题等从MediaWiki wikitext中提取正文文本。

项目描述

https://travis-ci.org/danmichaelo/mwtextextractor.png?branch=master https://coveralls.io/repos/danmichaelo/mwtextextractor/badge.png

mwtextextractor通过去除模板、HTML标签、表格、标题等从MediaWiki wikitext中提取简单的正文文本。提取的文本可用于单词计数。

示例

from mwtextextractor import get_body_text
print get_body_text('Lorem {{ipsum}} dolor')

项目详情


下载文件

下载适用于您的平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分布

mwtextextractor-0.1.3.tar.gz (3.1 kB 查看哈希)

上传时间:

构建分布

mwtextextractor-0.1.3-py2.py3-none-any.whl (3.6 kB 查看哈希)

上传时间: Python 2 Python 3

由以下机构支持