跳转到主要内容

将UNIHAN数据集构建成数据包/简单数据格式的工具。

项目描述

cihaidata-unihan - 将unihan构建成简单数据格式 CSV格式的工具。是cihai项目的一部分。

Python Package Documentation Status Build Status Code Coverage License

Unihan的数据分散在多个文件中,格式为

U+3400      kCantonese      jau1
U+3400      kDefinition     (same as U+4E18 丘) hillock or mound
U+3400      kMandarin       qiū
U+3401      kCantonese      tim2
U+3401      kDefinition     to lick; to taste, a mat, bamboo bark
U+3401      kHanyuPinyin    10019.020:tiàn
U+3401      kMandarin       tiàn

cihaidata_unihan/process.py将下载Unihan.zip并将所有文件构建成单个表格CSV(默认输出:./data/unihan.csv

char,ucn,kCantonese,kDefinition,kHanyuPinyin,kMandarin
丘,U+3400,jau1,(same as U+4E18 丘) hillock or mound,,qiū
㐁,U+3401,tim2,"to lock; to taste, a mat, bamboo bark",10019.020:"tiàn,tiàn"

process.py支持命令行参数。有关如何指定自定义列、文件、下载URL和输出目标的信息,请参阅cihaidata_unihan/process.py CLI参数

正在针对单元测试构建。请参阅Travis构建修订历史

用法

下载并构建自己的unihan.csv

$ ./cihaidata_unihan/process.py

创建data/unihan.csv

有关高级用法示例,请参阅cihaidata_unihan/process.py CLI参数

结构

# dataset metadata, schema information.
datapackage.json

# (future) when this package is stable, unihan.csv will be provided
data/unihan.csv

# stores downloaded Unihan.zip and it's txt file contents (.gitignore'd)
data/build_files/

# script to download + build a SDF csv of unihan.
cihaidata_unihan/process.py

# unit tests to verify behavior / consistency of builder
tests/*

# python 2/3 compatibility modules
cihaidata_unihan/_compat.py
cihaidata_unihan/unicodecsv.py

# python module, public-facing python API.
__init__.py
cihaidata_unihan/__init__.py

# utility / helper functions
cihaidata_unihan/util.py

Cihai不是必需的

  • data/unihan.csv - 兼容简单数据格式(SDF)的csv文件。

  • cihaidata_unihan/process.py - 生成 data/unihan.csv 文件。

当此模块稳定时,data/unihan.csv 将提供预发布版本,无需使用 cihaidata_unihan/process.pyprocess.py 将不需要外部库。

示例

相关链接

Python支持

Python 2.7, >= 3.3, pypy/pypy3

来源

https://github.com/cihai/cihaidata-unihan

文档

https://cihaidata-unihan.git-pull.com

变更日志

https://cihaidata-unihan.git-pull.com/en/latest/history.html

API

https://cihaidata-unihan.git-pull.com/en/latest/api.html

问题

https://github.com/cihai/cihaidata-unihan/issues

Travis

https://travis-ci.org/cihai/cihaidata-unihan

测试覆盖率

https://codecov.io/gh/cihai/cihaidata-unihan

pypi

https://pypi.python.org/pypi/cihaidata-unihan

OpenHub

https://www.openhub.net/p/cihaidata-unihan

许可证

MIT.

git仓库

$ git clone https://github.com/cihai/cihaidata-unihan.git

安装开发版本

$ git clone https://github.com/cihai/cihaidata-unihan.git cihai
$ cd ./cihai
$ virtualenv .env
$ source .env/bin/activate
$ pip install -e .

测试

$ python setup.py test

项目详情


下载文件

下载适用于您的平台文件。如果您不确定要选择哪一个,请了解更多关于 安装包 的信息。

源代码分布

cihaidata-unihan-0.4.2.tar.gz (11.7 kB 查看哈希值)

上传时间 源代码

支持单位: