一个用于读取和写入CLDF数据集的Python库

这些详情尚未通过PyPI验证

项目链接

项目描述

pycldf

一个用于读取和写入CLDF数据集的Python包。

安装

从PyPI安装pycldf。

pip install pycldf

命令行使用

安装pycldf包还会安装命令行界面cldf，它提供了一些子命令来管理CLDF数据集。

数据集发现

cldf子命令支持数据集发现，具体可参考标准。

因此，涉及远程数据集的典型工作流程可能如下所示。

创建一个本地目录以下载数据集（理想情况下包含版本信息）

$ mkdir wacl-1.0.0

从Zenodo验证数据集会隐式下载它，因此运行

$ cldf validate https://zenodo.org/record/7322688#rdf:ID=wacl --download-dir wacl-1.0.0/

将数据集下载到wacl-1.0.0。

随后我们可以本地访问数据以提高性能

$ cldf stats wacl-1.0.0/#rdf:ID=wacl
<cldf:v1.0:StructureDataset at wacl-1.0.0/cldf>
                          value
------------------------  --------------------------------------------------------------------
dc:bibliographicCitation  Her, One-Soon, Harald Hammarström and Marc Allassonnière-Tang. 2022.
dc:conformsTo             http://cldf.clld.org/v1.0/terms.rdf#StructureDataset
dc:identifier             https://wacl.clld.org
dc:license                https://creativecommons.org/licenses/by/4.0/
dc:source                 sources.bib
dc:title                  World Atlas of Classifier Languages
dcat:accessURL            https://github.com/cldf-datasets/wacl
rdf:ID                    wacl
rdf:type                  http://www.w3.org/ns/dcat#Distribution

                Type              Rows
--------------  --------------  ------
values.csv      ValueTable        3338
parameters.csv  ParameterTable       1
languages.csv   LanguageTable     3338
codes.csv       CodeTable            2
sources.bib     Sources           2000

（请注意，在Zenodo上定位数据集需要安装cldfzenodo。）

摘要统计

$ cldf stats mydataset/Wordlist-metadata.json 
<cldf:v1.0:Wordlist at mydataset>

Path                   Type          Rows
---------------------  ----------  ------
forms.csv              Form Table       1
mydataset/sources.bib  Sources          1

验证

可以说，pycldf最重要的功能之一是验证CLDF数据集。

默认情况下，数据文件以严格模式读取，即无效行会导致抛出异常。要验证数据文件，可以以验证模式读取。

例如，以下输出是在读取文件时生成的

$ cldf validate mydataset/forms.csv
WARNING forms.csv: duplicate primary key: (u'1',)
WARNING forms.csv:4:Source missing source key: Mei2005

时

ID,Language_ID,Parameter_ID,Value,Segments,Comment,Source
1,abcd1234,1277,word,,,Meier2005[3-7]
1,stan1295,1277,hand,,,Meier2005[3-7]
2,stan1295,1277,hand,,,Mei2005[3-7]

提取可读的元数据

CLDF元数据文件中的信息可以通过运行转换为markdown（一种可读的标记语言）

cldf markdown PATH/TO/metadata.json

此功能的典型用途是创建数据集的README.md（当上传到例如GitHub时，将在浏览器中良好渲染）。

下载数据集中MediaTable中列出的媒体

通常，CLDF数据集只引用媒体项。然而，MediaTable提供了足够的信息来下载和保存项的内容。这可以通过以下操作完成

cldf downloadmedia PATH/TO/metadata.json PATH/TO/DOWNLOAD/DIR

为了最小化带宽使用，可以通过传递形式为COLUMN_NAME=SUBSTRING的选择标准作为可选参数来过滤相关项。例如，可以通过以下操作将下载限制为音频文件，通过Media_Type=audio/（假设Media_Type是具有propertyUrl http://cldf.clld.org/v1.0/terms.rdf#mediaType的列名）

将CLDF数据集转换为SQLite数据库

CSVW的一般功能和CLDF的特别之处在于它提供了足够的元数据，可以将一组CSV文件加载到关系数据库中，包括表之间的关系。这可以通过运行cldf createdb命令完成

$ cldf createdb -h
usage: cldf createdb [-h] [--infer-primary-keys] DATASET SQLITE_DB_PATH

Load a CLDF dataset into a SQLite DB

positional arguments:
  DATASET               Dataset specification (i.e. path to a CLDF metadata
                        file or to the data file)
  SQLITE_DB_PATH        Path to the SQLite db file

有关结果数据库模式的规范，请参阅src/pycldf/db.py中的文档。

Python API

有关Python API的详细文档，请参阅ReadTheDocs上的文档。

读取CLDF

以示例，我们将从WALS Online，v2020读取数据

>>> from pycldf import Dataset
>>> wals2020 = Dataset.from_metadata('https://raw.githubusercontent.com/cldf-datasets/wals/v2020/cldf/StructureDataset-metadata.json')

出于探索目的，通过HTTP访问远程数据集是可以的。但对于实际分析，您首先需要下载数据集，然后本地访问它们，将本地文件路径传递给Dataset.from_metadata。

让我们看看我们得到了什么

>>> print(wals2020)
<cldf:v1.0:StructureDataset at https://raw.githubusercontent.com/cldf-datasets/wals/v2020/cldf/StructureDataset-metadata.json>
>>> for c in wals2020.components:
  ...     print(c)
...
ValueTable
ParameterTable
CodeTable
LanguageTable
ExampleTable

正如预期的那样，我们得到了一个StructureDataset，除了所需的ValueTable之外，我们还有一些额外的组件。

我们可以使用pycldf的ORM（对象关系映射）功能来调查值，即映射CLDF数据文件中的行到方便的Python对象。（请注意orm.py中描述的限制。）

>>> for value in wals2020.objects('ValueTable'):
  ...     break
...
>>> value
<pycldf.orm.Value id="81A-aab">
>>> value.language
<pycldf.orm.Language id="aab">
>>> value.language.cldf
Namespace(glottocode=None, id='aab', iso639P3code=None, latitude=Decimal('-3.45'), longitude=Decimal('142.95'), macroarea=None, name='Arapesh (Abu)')
>>> value.parameter
<pycldf.orm.Parameter id="81A">
>>> value.parameter.cldf
Namespace(description=None, id='81A', name='Order of Subject, Object and Verb')
>>> value.references
(<Reference Nekitel-1985[94]>,)
>>> value.references[0]
<Reference Nekitel-1985[94]>
>>> print(value.references[0].source.bibtex())
@misc{Nekitel-1985,
    olac_field = {syntax; general_linguistics; typology},
    school     = {Australian National University},
    title      = {Sociolinguistic Aspects of Abu', a Papuan Language of the Sepik Area, Papua New Guinea},
    wals_code  = {aab},
    year       = {1985},
    author     = {Nekitel, Otto I. M. S.}
}

如果性能很重要，可以直接以Python dict的形式读取数据行，在这种情况下，必须在“手动”中解析表之间的引用

>>> params = {r['id']: r for r in wals2020.iter_rows('ParameterTable', 'id', 'name')}
>>> for v in wals2020.iter_rows('ValueTable', 'parameterReference'):
    ...     print(params[v['parameterReference']]['name'])
...     break
...
Order of Subject, Object and Verb

请注意，我们将CLDF术语的名称传递给Dataset.iter_rows（例如id），指定我们想要通过CLDF术语访问的列 - 而不是通过数据集中它们映射到的列名。

编写CLDF

警告：使用pycldf编写CLDF并不会自动生成有效的CLDF！但是，它确实生成了可以通过cldf validate进行检查的数据（见下文），因此您在编写后应始终进行验证。

from pycldf import Wordlist, Source

dataset = Wordlist.in_dir('mydataset')
dataset.add_sources(Source('book', 'Meier2005', author='Hans Meier', year='2005', title='The Book'))
dataset.write(FormTable=[
    {
        'ID': '1', 
        'Form': 'word', 
        'Language_ID': 'abcd1234', 
        'Parameter_ID': '1277', 
        'Source': ['Meier2005[3-7]'],
    }])

结果

$ ls -1 mydataset/
forms.csv
sources.bib
Wordlist-metadata.json

mydataset/forms.csv

ID,Language_ID,Parameter_ID,Value,Segments,Comment,Source
1,abcd1234,1277,word,,,Meier2005[3-7]

mydataset/sources.bib

@book{Meier2005,
    author = {Meier, Hans},
    year = {2005},
    title = {The Book}
}

mydataset/Wordlist-metadata.json

高级编写

要将预定义的CLDF组件添加到数据集中，请使用add_component方法

from pycldf import StructureDataset, term_uri

dataset = StructureDataset.in_dir('mydataset')
dataset.add_component('ParameterTable')
dataset.write(
    ValueTable=[{'ID': '1', 'Language_ID': 'abc', 'Parameter_ID': '1', 'Value': 'x'}],
	ParameterTable=[{'ID': '1', 'Name': 'Grammatical Feature'}])

还可以添加通用表

dataset.add_table('contributors.csv', term_uri('id'), term_uri('name'))

这些表也可以与其他表链接

dataset.add_columns('ParameterTable', 'Contributor_ID')
dataset.add_foreign_key('ParameterTable', 'Contributor_ID', 'contributors.csv', 'ID')

处理表和列

可以使用数据集的__getitem__方法引用数据集中的表，传递

对应组件的完整CLDF本体URI
CLDF本体中组件的本地名称
表的url

可以使用数据集的__getitem__方法引用数据集中的列，传递一个元组(<TABLE>, <COLUMN>)，其中<TABLE>指定一个表，如上所述，而<COLUMN>是

用作列的propertyUrl的完整CLDF本体URI
列的name属性

另请参阅https://pycldf.readthedocs.io/en/latest/dataset.html#accessing-schema-objects-components-tables-columns-etc

面向对象的CLDF数据访问

pycldf.orm模块实现了通过ORM访问CLDF数据的功能。有关详细信息，请参阅https://pycldf.readthedocs.io/en/latest/orm.html。

通过SQL访问CLDF数据

pycldf.db模块实现了将CLDF数据加载到SQLite数据库中的功能。有关详细信息，请参阅https://pycldf.readthedocs.io/en/latest/ext_sql.html。

另请参阅

https://github.com/frictionlessdata/datapackage-py

项目详情

这些详情尚未通过PyPI验证

项目链接

发布历史发布通知 | RSS源

本版本

1.39.0

2024年9月9日

1.38.1

2024年5月6日

1.38.0

2024年4月26日

1.37.1

2024年3月18日

1.37.0

2024年1月22日

1.36.0

2023年11月14日

1.35.1

2023年10月23日

1.35.0

2023年7月10日

1.34.1

2023年3月15日

1.34.0

2022年12月5日

1.33.0

2022年11月24日

1.32.0

2022年11月23日

1.31.0

2022年11月22日

1.30.0

2022年11月22日

1.29.0

2022年10月28日

1.28.0

2022年10月11日

1.27.0

2022年7月7日

1.26.1

2022年5月23日

1.26.0

2022年5月19日

1.25.1

2022年2月6日

1.25.0

2022年2月5日

1.24.0

2021年11月24日

1.23.0

2021年8月15日

1.22.0

2021年6月4日

1.21.2

2021年5月28日

1.21.1

2021年5月26日

1.21.0

2021年5月10日

1.20.2

2021年5月3日

1.20.1

2021年4月30日

1.20.0

2021年4月28日

1.19.0

2021年4月3日

1.18.1

2021年3月9日

1.18.0

2021年1月13日

1.17.0

2020年10月31日

1.16.0

2020年10月13日

1.15.2

2020年10月12日

1.15.1

2020年10月7日

1.15.0

2020年8月19日

1.14.1

2020年3月7日

1.14.0

2020年3月7日

1.13.0

2020年3月4日

1.12.1

2020年2月14日

1.12.0

2020年2月13日

1.11.0

2020年2月12日

1.10.0

2020年1月10日

1.9.0

2019年11月26日

1.8.2

2019年10月24日

1.8.1

2019年10月14日

1.8.0

2019年9月17日

1.7.0

2019年8月16日

1.6.4

2019年6月12日

1.6.3

2019年6月3日

1.6.2

2019年5月9日

1.6.1

2019年5月6日

1.6.0

2019年5月2日

1.5.3

2019年4月1日

1.5.2

2018年11月16日

1.5.1

2018年8月2日

1.5.0

2018年7月31日

1.4.1

2018年5月2日

1.4.0

2018年5月2日

1.3.0

2018年4月24日

1.2.0

2018年4月18日

1.1.1

2018年4月18日

1.1.0

2018年4月18日

1.0.10

2018年1月13日

1.0.9

2017年12月20日

1.0.8

2017年12月1日

1.0.7

2017年11月29日

1.0.6

2017年10月19日

1.0.5

2017年10月16日

1.0.4

2017年10月12日

1.0.3

2017年8月16日

1.0.2

2017年7月28日

1.0.1

2017年7月27日

1.0r2

2017年7月17日

1.0r1

2017年7月14日

1.0.0

2017年7月27日

1.0rc1 预发布

2017年7月24日

1.0b2 预发布

2017年7月17日

0.6.4

2016年12月21日

0.6.3

2016年12月15日

0.6.2

2016年9月7日

0.6.1

2016年9月7日

0.6.0

2016年7月6日

0.5.2

2016年6月28日

0.5.1

2016年6月28日

0.5.0

2016年6月28日

0.4.2

2016年6月23日

0.4.1

2016年6月23日

0.4.0

2016年6月22日

0.3.0

2016年6月22日

0.2.1

2016年6月20日

0.2.0

2016年6月20日

0.1.0

2016年6月16日

下载文件

下载适用于您平台的文件。如果您不确定选择哪个，请了解更多关于安装包的信息。

源代码分发

pycldf-1.39.0.tar.gz (95.6 kB 查看哈希值)

上传时间 2024年9月9日 源代码

构建分发

pycldf-1.39.0-py2.py3-none-any.whl (88.9 kB 查看哈希值)

上传时间 2024年9月9日 Python 2 Python 3

哈希值 for pycldf-1.39.0.tar.gz

pycldf-1.39.0.tar.gz的哈希值
算法	哈希摘要
SHA256	`5150bd9d721ac607321559bcb205c3d3f6ecb817793ca51a5c4e63e989485f59`
MD5	`37e94d2dfa562707b82b087017863ed4`
BLAKE2b-256	`91805e63c553a9583326460f7bec67693205d87a1d88bf40583486294e969496`

哈希值 for pycldf-1.39.0-py2.py3-none-any.whl

pycldf-1.39.0-py2.py3-none-any.whl的哈希值
算法	哈希摘要
SHA256	`1112cb765609c7be84f25fe693b298b645a009e24278033c86d4fe98eba543cd`
MD5	`9a3d1fdb04559c1471bd5d275ffb49e1`
BLAKE2b-256	`2d33b8957064e56599588fae9b2adf2d7c4f632db4b5cf760b71ee4e151a10c8`

pycldf 1.39.0

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

pycldf

安装

命令行使用

数据集发现

摘要统计

验证

提取可读的元数据

下载数据集中MediaTable中列出的媒体

将CLDF数据集转换为SQLite数据库

Python API

读取CLDF

编写CLDF

高级编写

处理表和列

面向对象的CLDF数据访问

通过SQL访问CLDF数据

另请参阅

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史发布通知 | RSS源

下载文件

源代码分发

构建分发

pycldf 1.39.0

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

pycldf

安装

命令行使用

数据集发现

摘要统计

验证

提取可读的元数据

下载数据集中MediaTable中列出的媒体

将CLDF数据集转换为SQLite数据库

Python API

读取CLDF

编写CLDF

高级编写

处理表和列

面向对象的CLDF数据访问

通过SQL访问CLDF数据

另请参阅

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史 发布通知 | RSS源

下载文件

源代码分发

构建分发

发布历史发布通知 | RSS源