ACQDIV数据库的流水线
项目描述
ACQDIV
此存储库包含将儿童语言习得语料库转换为ACQDIV数据库的代码和配置文件。
出版物
如果您在研究中使用了数据库,请按以下方式引用
Jancso, Anna, Steven Moran, and Sabine Stoll.
"The ACQDIV Corpus Database and Aggregation Pipeline."
Proceedings of The 12th Language Resources and Evaluation Conference. 2020.
资源
下载ACQDIV数据库(仅公共语料库)
如需请求访问包括私人语料库在内的完整数据库(仅限研究目的!),请参阅Sabine Stoll。如遇技术问题,请在此存储库上创建一个问题。
语料库
我们的完整数据库包括以下语料库
语料库 | ISO | 公共 | # 单词 |
---|---|---|---|
Chintang语言语料库 | ctn | no | 987'673 |
Cree儿童语言习得研究(CCLAS)语料库 | cre | yes | 44'751 |
曼彻斯特英语语料库 | eng | yes | 2'016'043 |
MPI-EVA雅加达儿童语言数据库 | ind | yes | 2'489'329 |
Allen Inuktitut儿童语言语料库 | ike | no | 71'191 |
米普罗日语语料库 | jpn | yes | 1'011'670 |
宫田日语语料库 | jpn | yes | 373'021 |
库瓦鲁儿童语言社会化研究 | mux | yes | 65'723 |
萨瓦希努贡语料库 | yuw | yes | 19'659 |
Qaqet儿童语言记录 | byx | no | 56'239 |
斯托尔俄语语料库 | rus | no | 2'029'704 |
德穆塞索托语语料库 | sot | yes | 177'963 |
图阿钦语料库 | roh | no | 118'310 |
科兹大学纵向语言发展数据库 | tur | no | 1'120'077 |
佩伊勒尤卡特儿童语言语料库 | yua | no | 262'382 |
总数 | 10'843'735 |
运行管道
对于Windows用户,请按照以下安装/运行说明操作: https://github.com/acqdiv/acqdiv/wiki/Installation-Run-instructions-for-Windows
对于Mac和Linux用户,请继续此处自行运行管道
安装包
创建虚拟环境(可选)
python3 -m venv venv
source venv/bin/activate
您可以从PyPI或直接从源安装该包
PyPI
pip安装acqdiv
从源
# Clone Repository
git clone git@github.com:acqdiv/acqdiv.git
cd acqdiv
# Install package (for users!)
pip install .
# Developer mode (for developers!)
pip install -r requirements.txt
获取语料库
运行以下脚本以下载公共语料库
python util/download_public_corpora.py
语料库位于文件夹 corpora
中。
对于私有语料库,可以将会话文件放在 corpora/<corpus_name>/{cha|toolbox}/
,并将元数据文件(仅限于Toolbox语料库)放在 corpora/<corpus_name>/imdi/
,或者编辑 config.ini
中这些文件的路径(参见下文)。
生成数据库
获取配置文件 src/acqdiv/config.ini
并指定语料库目录的绝对路径(不带尾随斜杠)(corpora_dir
)以及数据库应写入的目录(db_dir
)
[.global]
# directory containing corpora
corpora_dir = /absolute/path/to/corpora/dir
# directory where the database is written to
db_dir = /absolute/path/to/database/dir
...
可选地调整单个语料库的路径(sessions
和 metadata_dir
)。
运行管道时指定配置文件的绝对路径
acqdiv load -c /absolute/path/to/config.ini
生成R对象
安装依赖项
$ R
> install.packages("RSQLite")
> install.packages("rlang")
导航到 src/acqdiv/database
并运行
Rscript sqlite_to_r.R /absolute/path/to/sqlite-DB
运行测试
运行单元测试
pytest tests/unittests
在数据库上运行完整性测试
pytest tests/systemtests
项目详情
acqdiv-1.1.0.tar.gz的哈希
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 8ca05d0058cc04e9fbae16b9df244c851dbf87b483d97d2e500874c8851d643a |
|
MD5 | ddd74c4f27ae54fd41705e53854d7b32 |
|
BLAKE2b-256 | e62e50039684b6521d5a8aab314e7687feedd218ecfcb370a6ef0003185e83f2 |