跳转到主要内容

将FLEx数据转换为CLDF格式的CSV。

项目描述

cldflex

将FLEx数据转换为CLDF格式的CSV。

Versions PyPI License

许多描述语言学家已在FLEx(SIL的字汇探索器)数据库中注释了语言数据,这可能是最受欢迎和可访问的辅助分割和注释工作流程。然而,相对完整的数据导出仅以XML格式提供,这种格式不适合人类阅读,并且不易转换为其他数据。越来越受欢迎的数据格式是CLDF标准,这是一种基于表格的方法,具有可读数据集,旨在在CLLD应用中使用,并且任何可以读取CSV文件(包括Rpandas或电子表格应用程序)的软件都可以轻松处理。cldflex的目标是将存储在FLEx中的词汇和语料库数据转换为CSV表格,主要用于CLDF数据集。

安装

cldflex可在PyPI上获得

pip install cldflex

命令行用法

目前有三种命令:用于.flextext文件的cldflex corpus;用于.lift文件的cldflex dictionarycldflex wordlist。所有命令都会创建多个CSV文件。可以使用cldfbench从这些文件创建自己的CLDF数据集,或者添加--cldf参数来创建一个简单的CLDF数据集。可以通过--conf your/config.yaml传递特定项目的配置,或者创建一个cldflex.yaml文件。

语料库

基本用法

cldflex corpus texts.flextext

将语料库与词汇表连接

cldflex corpus texts.flextext --lexicon lexicon.lift

创建CLDF数据集

cldflex corpus texts.flextext --lexicon lexicon.lift --cldf

词典

lexicon.lift中提取词素、词形和条目

cldflex dictionary lexicon.lift

使用Dictionary模块创建CLDF数据集

cldflex dictionary lexicon.lift --cldf

词表

使用Wordlist模块创建CLDF数据集

cldflex wordlist lexicon.lift --cldf

API用法

与上述命令对应的函数是cldflex.corpus.convert()cldflex.lift2csv.convert()

配置

没有默认配置。相反,cldflex会猜测大多数参数的值,并告诉你它在做什么。建议在出现错误或需要更改某些内容之前不进行配置。为CLI使用创建一个YAML文件,将字典传递给convert方法。

  • obj_lg:目标语言
  • gloss_lg:用于注解/翻译的语言
  • msa_lg:用于存储词性信息的语言
  • lang_id:创建的表中将使用的值
  • glottocode:用于从glottolog查找语言元数据
  • csv_cell_separator:如果单元格中有多个值(词素变体、多义词...),默认情况下它们由"; "分隔
  • form_slices:如果您不希望形式切片连接词素和词形,则将其设置为false
  • mappings:指定创建的CSV文件中列名称更改的字典

项目详情


下载文件

下载适合您平台的项目。如果您不确定选择哪个,请了解有关安装包的更多信息。

源分发

cldflex-0.1.1.tar.gz (21.6 kB 查看哈希值)

上传时间:

构建分发

cldflex-0.1.1-py3-none-any.whl (22.8 kB 查看哈希值)

上传时间: Python 3

支持者

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面