跳转到主要内容

一个用于从维基百科XML数据库存档中提取学术文献引用的脚本和工具集合。

项目描述

本项目包含一个用于提取学术引用标识符的实用工具。

注意: 本项目的依赖之一(Mediawiki-Utilities)需要Python 3,因此mwcites也需要。

pip install mwcites

使用方法

此软件包中只有一个名为 mwcitations 的实用工具。

$ mwcitations extract enwiki-20150112-pages-meta-history*.xml*.bz2 > citations.tsv

文档

请使用 $ mwcitations extract -h 获取文档。

Extracts academic citations from articles from the history of Wikipedia
articles by processing a pages-meta-history XML dump and matching regular
expressions to revision content.

Currently supported identifiers include:

 * PubMed
 * DOI
 * ISBN
 * arXiv

Outputs a TSV file with the following fields:

 * page_id: The identifier of the Wikipedia article (int), e.g. 1325125
 * page_title: The title of the Wikipedia article (utf-8), e.g. Club cell
 * rev_id: The Wikipedia revision where the citation was first added (int),
           e.g. 282470030
 * timestamp: The timestamp of the revision where the citation was first
              added. (ISO 8601 datetime), e.g. 2009-04-08T01:52:20Z
 * type: The type of identifier, e.g. pmid, pmcid, doi, isbn or arxiv
 * id: The id of the cited scholarly article (utf-8),
       e.g 10.1183/09031936.00213411

Usage:
    mwcites extract -h | --help
    mwcites extract <dump_file>...

Options:
    -h --help        Shows this documentation

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源代码分发

mwcites-0.2.0.zip (17.7 kB 查看哈希值)

上传时间 源代码

mwcites-0.2.0.tar.gz (10.5 kB 查看哈希值)

上传时间 源代码

支持者