将UNIHAN数据集构建成数据包/简单数据格式的工具。
项目描述
cihaidata-unihan - 将unihan构建成简单数据格式 CSV格式的工具。是cihai项目的一部分。
Unihan的数据分散在多个文件中,格式为
U+3400 kCantonese jau1 U+3400 kDefinition (same as U+4E18 丘) hillock or mound U+3400 kMandarin qiū U+3401 kCantonese tim2 U+3401 kDefinition to lick; to taste, a mat, bamboo bark U+3401 kHanyuPinyin 10019.020:tiàn U+3401 kMandarin tiàn
cihaidata_unihan/process.py将下载Unihan.zip并将所有文件构建成单个表格CSV(默认输出:./data/unihan.csv)
char,ucn,kCantonese,kDefinition,kHanyuPinyin,kMandarin 丘,U+3400,jau1,(same as U+4E18 丘) hillock or mound,,qiū 㐁,U+3401,tim2,"to lock; to taste, a mat, bamboo bark",10019.020:"tiàn,tiàn"
process.py支持命令行参数。有关如何指定自定义列、文件、下载URL和输出目标的信息,请参阅cihaidata_unihan/process.py CLI参数。
用法
下载并构建自己的unihan.csv
$ ./cihaidata_unihan/process.py
创建data/unihan.csv。
有关高级用法示例,请参阅cihaidata_unihan/process.py CLI参数。
结构
# dataset metadata, schema information.
datapackage.json
# (future) when this package is stable, unihan.csv will be provided
data/unihan.csv
# stores downloaded Unihan.zip and it's txt file contents (.gitignore'd)
data/build_files/
# script to download + build a SDF csv of unihan.
cihaidata_unihan/process.py
# unit tests to verify behavior / consistency of builder
tests/*
# python 2/3 compatibility modules
cihaidata_unihan/_compat.py
cihaidata_unihan/unicodecsv.py
# python module, public-facing python API.
__init__.py
cihaidata_unihan/__init__.py
# utility / helper functions
cihaidata_unihan/util.py
Cihai不是必需的
data/unihan.csv - 兼容简单数据格式(SDF)的csv文件。
cihaidata_unihan/process.py - 生成 data/unihan.csv 文件。
当此模块稳定时,data/unihan.csv 将提供预发布版本,无需使用 cihaidata_unihan/process.py。 process.py 将不需要外部库。
示例
相关链接
CSV 简单数据格式(SDF): http://data.okfn.org/standards/simple-data-format
Python支持 |
Python 2.7, >= 3.3, pypy/pypy3 |
来源 |
|
文档 |
|
变更日志 |
https://cihaidata-unihan.git-pull.com/en/latest/history.html |
API |
|
问题 |
|
Travis |
|
测试覆盖率 |
|
pypi |
|
OpenHub |
|
许可证 |
MIT. |
git仓库 |
|
安装开发版本 |
|
测试 |
|
项目详情
cihaidata-unihan-0.4.2.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | f513cde270acdb165087ffc673aab857f498acb174bb28cfcc9f82b9f3cb5d5e |
|
MD5 | 7421b08089bb7dc28d4fbef07a8ad3c3 |
|
BLAKE2b-256 | d4e60534af69077b5ebf3e8ab2f8a383263ce42e72267388592735d7139b4d74 |