将FLEx数据转换为CLDF格式的CSV。
项目描述
cldflex
将FLEx数据转换为CLDF格式的CSV。
许多描述语言学家已在FLEx(SIL的字汇探索器)数据库中注释了语言数据,这可能是最受欢迎和可访问的辅助分割和注释工作流程。然而,相对完整的数据导出仅以XML格式提供,这种格式不适合人类阅读,并且不易转换为其他数据。越来越受欢迎的数据格式是CLDF标准,这是一种基于表格的方法,具有可读数据集,旨在在CLLD应用中使用,并且任何可以读取CSV文件(包括R,pandas或电子表格应用程序)的软件都可以轻松处理。cldflex的目标是将存储在FLEx中的词汇和语料库数据转换为CSV表格,主要用于CLDF数据集。
安装
cldflex可在PyPI上获得
pip install cldflex
命令行用法
目前有三种命令:用于.flextext
文件的cldflex corpus
;用于.lift
文件的cldflex dictionary
和cldflex wordlist
。所有命令都会创建多个CSV文件。可以使用cldfbench从这些文件创建自己的CLDF数据集,或者添加--cldf
参数来创建一个简单的CLDF数据集。可以通过--conf your/config.yaml
传递特定项目的配置,或者创建一个cldflex.yaml
文件。
语料库
基本用法
cldflex corpus texts.flextext
将语料库与词汇表连接
cldflex corpus texts.flextext --lexicon lexicon.lift
创建CLDF数据集
cldflex corpus texts.flextext --lexicon lexicon.lift --cldf
词典
从lexicon.lift
中提取词素、词形和条目
cldflex dictionary lexicon.lift
使用Dictionary
模块创建CLDF数据集
cldflex dictionary lexicon.lift --cldf
词表
使用Wordlist
模块创建CLDF数据集
cldflex wordlist lexicon.lift --cldf
API用法
与上述命令对应的函数是cldflex.corpus.convert()
和cldflex.lift2csv.convert()
。
配置
没有默认配置。相反,cldflex
会猜测大多数参数的值,并告诉你它在做什么。建议在出现错误或需要更改某些内容之前不进行配置。为CLI使用创建一个YAML文件,将字典传递给convert
方法。
obj_lg
:目标语言gloss_lg
:用于注解/翻译的语言msa_lg
:用于存储词性信息的语言lang_id
:创建的表中将使用的值glottocode
:用于从glottolog查找语言元数据csv_cell_separator
:如果单元格中有多个值(词素变体、多义词...),默认情况下它们由"; "
分隔form_slices
:如果您不希望形式切片连接词素和词形,则将其设置为false
mappings
:指定创建的CSV文件中列名称更改的字典
项目详情
下载文件
下载适合您平台的项目。如果您不确定选择哪个,请了解有关安装包的更多信息。
源分发
构建分发
cldflex-0.1.1.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 6381ebf7b0b2647d0d0c6ddd8bf48acdba5c2dbfc00e3effc407e02a319a3606 |
|
MD5 | e707ea125c3aa5d10c68e2d207c34c99 |
|
BLAKE2b-256 | fb71ff444f58d4d9491396817ae180ad68cb3ee9bc95984859fa110bd7be1402 |
cldflex-0.1.1-py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 87cbcb2eb15ae1cf41becb8793af1f70d057dd6b5ea67dbfca0110ffd8add4ec |
|
MD5 | d2023200cbdb512ea7ef70cd6c8495f0 |
|
BLAKE2b-256 | 4489e9bd891849896a60286a473a4e941ffee7ccde195b4c57af1768ee677276 |