spaCy的附加查找表和数据资源
项目描述
spaCy查找数据
此存储库包含用于spaCy v2.2+的附加数据文件。当它与spaCy安装在同一环境中时,此软件包使每种语言的资源可用作入口点,spaCy在设置Vocab
和Lookups
时将检查这些资源。
请随时提交拉取请求以更新数据。有关数据、查找和集成相关的问题,请使用spaCy问题跟踪器。
常见问题解答
为什么存在这个包?
这个包的主要目的是使默认的spaCy安装包体积更小,并且默认情况下不需要每个用户都下载所有语言的的大型数据文件。查找数据现在可以通过以下方式提供:通过预训练模型(它们将词汇表和查找表序列化出来)或者通过明确安装此包或spacy[lookups]
。
我应该何时安装这个包?
如果您想使用尚未提供可下载的预训练模型的语言的词形还原,并且不依赖于第三方库进行词形还原(例如,用于塞尔维亚语或土耳其语(查看数据文件)),则应安装此包。
如果您正在使用spaCy训练新模型,则可能需要安装此包,因为它包含25多个语言的词形还原和规范化数据,这些数据不再包含在主spaCy库中。特别是,如果您正在创建一个空白模型并希望它包含词形还原和规范化数据,则应安装它。一旦您保存了模型(例如,通过nlp.to_disk
),它将包含作为其Vocab
部分的查找表。
这个包只用于词形还原吗?
这个包最初只用于词形还原,但它已被扩展以包含许多语言的规范化数据。从v0.3.1版本开始,它还包括可选的概率和Brown聚类数据,这些数据以前与spaCy v2.2中提供的模型一起分发,但现在不再包含在spaCy v2.3中。未来它可能还包括其他查找列表和表,例如大型分词异常文件。
运行测试
此包现在还包括所有特定于数据测试。测试套件依赖于spaCy。
pip install -r requirements.txt
python -m pytest spacy_lookups_data
如果您已在spaCy环境中安装了此包,您也可以这样运行测试
python -m pytest --pyargs spacy_lookups_data
错误报告和其他问题
请使用spaCy的问题跟踪器报告错误,或在任何其他问题上的讨论板上打开新线程。
项目详情
下载文件
下载适合您平台的应用程序。如果您不确定选择哪个,请了解更多关于安装包的信息。