NLP,在spaCy之前和之后
项目描述
textacy: NLP,在spaCy之前和之后
textacy
是一个Python库,用于执行各种自然语言处理(NLP)任务,基于高性能的spaCy库。通过将基础功能(如分词、词性标注、依存句法分析等)委托给另一个库,textacy
主要关注在spaCy之前和之后的任务。
功能
- 通过方便的方法和自定义扩展访问和扩展spaCy的核心功能,以处理一个或多个文档
- 加载包含文本内容和元数据的准备好的数据集,从国会演讲到历史文献再到Reddit评论
- 在用spaCy处理之前,对原始文本进行清理、归一化和探索
- 从处理过的文档中提取结构化信息,包括n-gram、实体、缩写、关键词和SVO三元组
- 使用各种相似性度量比较字符串和序列
- 分词和向量化文档,然后训练、解释和可视化主题模型
- 计算文本可读性和词汇多样性统计数据,包括Flesch-Kincaid等级、多语言Flesch阅读易度以及类型-词比
... 等等!
链接
- 下载: https://pypi.ac.cn/project/textacy
- 文档:https://textacy.readthedocs.io
- 源代码:https://github.com/chartbeat-labs/textacy
- 错误追踪器:https://github.com/chartbeat-labs/textacy/issues
维护者
嗨,大家好。👋
- Burton DeWilde (burtdewilde@gmail.com)
项目详情
下载文件
下载适用于您的平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。
源分发
textacy-0.13.0.tar.gz (435.7 kB 查看哈希值)
构建分发
textacy-0.13.0-py3-none-any.whl (210.7 kB 查看哈希值)
关闭
textacy-0.13.0.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 6be02448c08fc7d7c4edf85289006e39a4a53ef747201ff24b675c652f40c686 |
|
MD5 | 54f049988924accaba14c18c268b0c34 |
|
BLAKE2b-256 | 04fe4a578d9f68e7aaf6b7be7d8df974ab3b1b21f2e64d492919adda3cd80b71 |
关闭
textacy-0.13.0-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 0e150ce52c8366ccd26650ac310478bbe19604a16fd35a97659973f9d172573c |
|
MD5 | 5e1b916d0c77659484bdefc00c72c8f1 |
|
BLAKE2b-256 | 8092a3593873fbd531f8430c4a2958611280dd33ace14ead14a6c43e61675e55 |