跳转到主要内容

ACQDIV数据库的流水线

项目描述

ACQDIV

DOI PyPI version

CircleCI

此存储库包含将儿童语言习得语料库转换为ACQDIV数据库的代码和配置文件。

出版物

如果您在研究中使用了数据库,请按以下方式引用

Jancso, Anna, Steven Moran, and Sabine Stoll.
"The ACQDIV Corpus Database and Aggregation Pipeline."
Proceedings of The 12th Language Resources and Evaluation Conference. 2020.

论文链接

资源

下载ACQDIV数据库(仅公共语料库)

DOI

如需请求访问包括私人语料库在内的完整数据库(仅限研究目的!),请参阅Sabine Stoll。如遇技术问题,请在此存储库上创建一个问题。


语料库

我们的完整数据库包括以下语料库

语料库 ISO 公共 # 单词
Chintang语言语料库 ctn no 987'673
Cree儿童语言习得研究(CCLAS)语料库 cre yes 44'751
曼彻斯特英语语料库 eng yes 2'016'043
MPI-EVA雅加达儿童语言数据库 ind yes 2'489'329
Allen Inuktitut儿童语言语料库 ike no 71'191
米普罗日语语料库 jpn yes 1'011'670
宫田日语语料库 jpn yes 373'021
库瓦鲁儿童语言社会化研究 mux yes 65'723
萨瓦希努贡语料库 yuw yes 19'659
Qaqet儿童语言记录 byx no 56'239
斯托尔俄语语料库 rus no 2'029'704
德穆塞索托语语料库 sot yes 177'963
图阿钦语料库 roh no 118'310
科兹大学纵向语言发展数据库 tur no 1'120'077
佩伊勒尤卡特儿童语言语料库 yua no 262'382
总数 10'843'735

运行管道

对于Windows用户,请按照以下安装/运行说明操作: https://github.com/acqdiv/acqdiv/wiki/Installation-Run-instructions-for-Windows

对于Mac和Linux用户,请继续此处自行运行管道

安装包

创建虚拟环境(可选)

python3 -m venv venv
source venv/bin/activate

您可以从PyPI或直接从源安装该包

PyPI

pip安装acqdiv

从源

# Clone Repository
git clone git@github.com:acqdiv/acqdiv.git
cd acqdiv

# Install package (for users!)
pip install .

# Developer mode (for developers!)
pip install -r requirements.txt

获取语料库

运行以下脚本以下载公共语料库

python util/download_public_corpora.py

语料库位于文件夹 corpora 中。

对于私有语料库,可以将会话文件放在 corpora/<corpus_name>/{cha|toolbox}/,并将元数据文件(仅限于Toolbox语料库)放在 corpora/<corpus_name>/imdi/,或者编辑 config.ini 中这些文件的路径(参见下文)。

生成数据库

获取配置文件 src/acqdiv/config.ini 并指定语料库目录的绝对路径(不带尾随斜杠)(corpora_dir)以及数据库应写入的目录(db_dir

[.global]
# directory containing corpora
corpora_dir = /absolute/path/to/corpora/dir
# directory where the database is written to
db_dir = /absolute/path/to/database/dir
...

可选地调整单个语料库的路径(sessionsmetadata_dir)。

运行管道时指定配置文件的绝对路径
acqdiv load -c /absolute/path/to/config.ini

生成R对象

安装依赖项

$ R
> install.packages("RSQLite")
> install.packages("rlang")

导航到 src/acqdiv/database 并运行

Rscript sqlite_to_r.R /absolute/path/to/sqlite-DB

运行测试

运行单元测试
pytest tests/unittests

在数据库上运行完整性测试
pytest tests/systemtests

项目详情


下载文件

下载适用于您的平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源分布

acqdiv-1.1.0.tar.gz (148.8 kB 查看哈希)

上传时间

由以下支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面