跳转到主要内容

NLP,在spaCy之前和之后

项目描述

textacy: NLP,在spaCy之前和之后

textacy 是一个Python库,用于执行各种自然语言处理(NLP)任务,基于高性能的spaCy库。通过将基础功能(如分词、词性标注、依存句法分析等)委托给另一个库,textacy 主要关注在spaCy之前和之后的任务。

build status current release version pypi version conda version

功能

  • 通过方便的方法和自定义扩展访问和扩展spaCy的核心功能,以处理一个或多个文档
  • 加载包含文本内容和元数据的准备好的数据集,从国会演讲到历史文献再到Reddit评论
  • 在用spaCy处理之前,对原始文本进行清理、归一化和探索
  • 从处理过的文档中提取结构化信息,包括n-gram、实体、缩写、关键词和SVO三元组
  • 使用各种相似性度量比较字符串和序列
  • 分词和向量化文档,然后训练、解释和可视化主题模型
  • 计算文本可读性和词汇多样性统计数据,包括Flesch-Kincaid等级、多语言Flesch阅读易度以及类型-词比

... 等等!

链接

维护者

嗨,大家好。👋

项目详情


下载文件

下载适用于您的平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源分发

textacy-0.13.0.tar.gz (435.7 kB 查看哈希值)

上传时间:

构建分发

textacy-0.13.0-py3-none-any.whl (210.7 kB 查看哈希值)

上传时间: Python 3

由以下支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面