跳转到主要内容

易于使用的文本提取器,从PDF、DOC、DOCX等文档类型中提取文本,使用优秀的Textract,包括必要时使用OCR(通过Tesseract)。

项目描述

PyPI-Status PyPI-Versions LICENCE

易于使用的文本提取器,从PDF、DOC、DOCX等文档中提取文本,包括必要时使用OCR(通过Tesseract)。

此库可以从Textract支持的任何类型中提取文本。

此库的存在归功于Textract团队和Tesseract的出色工作。

Screenshot

它运行在Python 2.7下(尽管可能需要进行一些修改,但它可能与Python 3兼容,但这未经测试或开发)。

安装

通常,请参阅Textract文档以安装从所需文件类型提取文本所需的所有软件。

本节其余部分将描述基本设置的详细信息。

Python(所有平台:Linux、MacOSX、Windows)

要从Python运行Easytextract,您需要Python > 2.7,并且使用pip安装textract。

然后安装以下库以支持您想要的文件类型

  • 对于PDF,使用pip安装PDFMiner。为了获取更多功能和更好的PDF提取,您可以安装pdftotext,它是poppler或Xpdf的一部分。

  • 对于OCR,您需要安装Tesseract >= 3.02(但不能是3.0或4!)和pdftoppm。

  • 对于DOCX,使用pip安装python-docx2txt。

  • 对于DOC,在Windows上的位置安装antiword:C:antiwordantiword.exe,对于Linux和Mac,您需要更改脚本中的路径。

  • 要支持其他类型(如音频),请参阅https://textract.readthedocs.io/en/stable/#currently-supporting

WINDOWS

使用Windows二进制文件(仅适用于Windows 64位),直接支持PDF和DOCX。

要启用OCR,并在您的平台上预先安装tesseract >= v3.02(不能是v4!)和pdftoppm.exe。

对于DOC支持(DOCX已经是本地支持),您还需要在C:antiwordantiword.exe安装antiword。

许可证

easytextract最初由Stephen Larroque <LRQ3000>为比利时Coma Science Group - GIGA Consciousness - CHU de Liege制作。该应用程序的许可证为MIT许可证。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分布

easytextract-1.1.5.tar.gz (2.8 MB 查看散列值

上传时间

支持者