Products.PDFtoOCR · PyPI · Python 包索引

PDFtoOCR对PDF文档进行OCR处理。OCR文本用于搜索结果。

这些详情尚未由PyPI验证

项目链接

主页

项目描述

简介

PDFtoOCR使用OCR处理PDF文档中的文本。当无法从（扫描的）PDF中提取文本时，需要这样做。PDFtoOCR使用内容规则来安排OCR处理。处理不能即时进行，例如使用自定义TextIndexNG插件。使用OCR处理大型PDF文档是一项耗时/处理器消耗的任务。

配置

操作系统上

PDF to Text 在 Linux 下使用三个可用的工具。这些工具的协作仅在 Debian 上进行了测试。但在其他 *NIX 环境中可能也能正常工作。

安装要求，PDF to OCR 使用以下程序

pdftotext，检查是否需要进行 OCR 处理
ghostscript，将 PDF 文档转换为 tiff 图像
tesseract，执行 OCR 处理（确保您已安装所有语言包！）

设置环境变量

环境变量 $GS 必须设置，并指向 ghostscript 可执行文件。
环境变量 $TESSERACT 必须设置，并指向 tesseract 可执行文件。

在 Plone 网站上

添加内容规则

事件触发：对象修改和对象添加
条件：内容类型是文件
操作：将 PDF 的 OCR 输出存储为可搜索文本

将内容规则分配给 Plone 网站或文件夹

安装 cron4plone 并添加以下 cron 作业：portal/@@do_pdf_ocr_index

用法

只需添加包含 PDF 文档的文件。可选地，您可以选择语言，以便 OCR 引擎在索引时可以使用词典。Tesseract 仅支持有限数量的语言。

在控制面板中可以找到已索引文档的概述，‘PDF to OCR 状态’。在此状态页面上可以进行文档的（重新）索引。

PDF 处理

每次添加或修改文件时，都会将文件的唯一 ID（uid）添加到队列中。此队列是持久的，具有两个功能，用于索引和重新索引。索引功能使用队列处理文档。当使用重新索引时，将处理队列历史记录中的所有文件。

如果使用 pdftotext 从 PDF 文档中提取文本，则不执行 OCR。否则，OCR 将提取文本并将其存储在内容类型文件中。ATFile 使用额外的字段进行了修补，以容纳提取的文本和 PDF 的语言。

页面视图

@@do_pdf_ocr_index - 索引队列中的文档
@@do_pdf_ocr_reindex - 重新索引 Plone 网站中的所有 PDF 文档
@@pdf_ocr_status - 显示队列和 10 个文档的历史记录

进一步阅读

http://plone.org/documentation/how-to/ocr-in-plone-using-tesseract-ocr/ http://code.google.com/p/tesseract-ocr/

确保您在 /usr/local/share/tessdata/ 中没有空的语言文件

可能是一个好的替代方案，使用 tesseract 但设置困难，并且仍然处于测试阶段：http://sites.google.com/site/ocropus/

变更日志

1.1

与 Plone 4 兼容
添加了一个控制面板页面
使用 archetypes.schemaextender 添加了“OCR 文本”字段，而不是使用猴子补丁
不再使用旧风格的文件系统外部方法来执行操作。
添加了文档测试

1.0 - 首次发布

初始发布

项目详情

这些详情尚未由PyPI验证

项目链接

主页

发布历史发布通知 | RSS 源

此版本

1.1

2010 年 3 月 16 日

1.0

2009 年 6 月 17 日

1.0dev 预发布

2009 年 6 月 17 日

下载文件

下载适合您平台的文件。如果您不确定选择哪个，请了解更多关于安装软件包的信息。

源分发

Products.PDFtoOCR-1.1.tar.gz (17.9 kB 查看哈希值)

上传时间 2010 年 3 月 16 日 源

哈希对 Products.PDFtoOCR-1.1.tar.gz

Products.PDFtoOCR-1.1.tar.gz 的哈希
算法	哈希摘要
SHA256	`e3954b64b6f79303e715904924930d6a5c8f593d8b6797e51a2cebb79d09352e`
MD5	`f536114bbba215151cf77f7c64a67762`
BLAKE2b-256	`2a9be05b5c48c220adec9491ccad94d35a69ad554f83f30788afe43493a5019e`

Products.PDFtoOCR 1.1

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类

项目描述

简介