跳转到主要内容

spaCy的附加查找表和数据资源

项目描述

spaCy查找数据

此存储库包含用于spaCy v2.2+的附加数据文件。当它与spaCy安装在同一环境中时,此软件包使每种语言的资源可用作入口点,spaCy在设置VocabLookups时将检查这些资源。

请随时提交拉取请求以更新数据。有关数据、查找和集成相关的问题,请使用spaCy问题跟踪器

tests Current Release Version pypi Version conda Version

常见问题解答

为什么存在这个包?

这个包的主要目的是使默认的spaCy安装包体积更小,并且默认情况下不需要每个用户都下载所有语言的的大型数据文件。查找数据现在可以通过以下方式提供:通过预训练模型(它们将词汇表和查找表序列化出来)或者通过明确安装此包spacy[lookups]

我应该何时安装这个包?

如果您想使用尚未提供可下载的预训练模型的语言的词形还原,并且不依赖于第三方库进行词形还原(例如,用于塞尔维亚语土耳其语查看数据文件)),则应安装此包。

如果您正在使用spaCy训练新模型,则可能需要安装此包,因为它包含25多个语言的词形还原和规范化数据,这些数据不再包含在主spaCy库中。特别是,如果您正在创建一个空白模型并希望它包含词形还原和规范化数据,则应安装它。一旦您保存了模型(例如,通过nlp.to_disk),它将包含作为其Vocab部分的查找表。

这个包只用于词形还原吗?

这个包最初只用于词形还原,但它已被扩展以包含许多语言的规范化数据。从v0.3.1版本开始,它还包括可选的概率和Brown聚类数据,这些数据以前与spaCy v2.2中提供的模型一起分发,但现在不再包含在spaCy v2.3中。未来它可能还包括其他查找列表和表,例如大型分词异常文件。

运行测试

此包现在还包括所有特定于数据测试。测试套件依赖于spaCy。

pip install -r requirements.txt
python -m pytest spacy_lookups_data

如果您已在spaCy环境中安装了此包,您也可以这样运行测试

python -m pytest --pyargs spacy_lookups_data

错误报告和其他问题

请使用spaCy的问题跟踪器报告错误,或在任何其他问题上的讨论板上打开新线程。

项目详情


下载文件

下载适合您平台的应用程序。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分布

spacy_lookups_data-1.0.5.tar.gz (98.4 MB 查看哈希值)

上传时间

构建分布

spacy_lookups_data-1.0.5-py2.py3-none-any.whl (98.5 MB 查看哈希值)

上传于 Python 2 Python 3

由以下支持