一个用于从维基百科XML数据库存档中提取学术文献引用的脚本和工具集合。
项目描述
本项目包含一个用于提取学术引用标识符的实用工具。
注意: 本项目的依赖之一(Mediawiki-Utilities)需要Python 3,因此mwcites也需要。
pip install mwcites
使用方法
此软件包中只有一个名为 mwcitations 的实用工具。
$ mwcitations extract enwiki-20150112-pages-meta-history*.xml*.bz2 > citations.tsv
文档
请使用 $ mwcitations extract -h 获取文档。
Extracts academic citations from articles from the history of Wikipedia articles by processing a pages-meta-history XML dump and matching regular expressions to revision content. Currently supported identifiers include: * PubMed * DOI * ISBN * arXiv Outputs a TSV file with the following fields: * page_id: The identifier of the Wikipedia article (int), e.g. 1325125 * page_title: The title of the Wikipedia article (utf-8), e.g. Club cell * rev_id: The Wikipedia revision where the citation was first added (int), e.g. 282470030 * timestamp: The timestamp of the revision where the citation was first added. (ISO 8601 datetime), e.g. 2009-04-08T01:52:20Z * type: The type of identifier, e.g. pmid, pmcid, doi, isbn or arxiv * id: The id of the cited scholarly article (utf-8), e.g 10.1183/09031936.00213411 Usage: mwcites extract -h | --help mwcites extract <dump_file>... Options: -h --help Shows this documentation
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。
源代码分发
mwcites-0.2.0.zip (17.7 kB 查看哈希值)
mwcites-0.2.0.tar.gz (10.5 kB 查看哈希值)
关闭
mwcites-0.2.0.zip 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 7670124a4ab55b856022949f0046a05d38a12d14a6f156e1a654747987485e2e |
|
MD5 | 93e15cb66654777667dd497edb91ca4f |
|
BLAKE2b-256 | ecd5e9df07872b866e44a7ab90e0c6fd472e531a5107393e6a1233a58c6017a1 |
关闭
mwcites-0.2.0.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 8229377609e2d9ebcd3d8dc3ba8f8283a05029f91062a16c6b715dbd6bd7a536 |
|
MD5 | 035947b31aaaf640e12828e90a18b964 |
|
BLAKE2b-256 | 28c89bb13c1198d47aa59209b5f3551ad3ddd02eaa7de4c9d44fe94e4f634e11 |