跳转到主要内容

集成plone.app.async的PDF缩略图生成、OCR索引和额外视图

项目描述

简介

此包为重量级 PDF 网站提供了一些优秀的集成。

  • 从 PDF 生成缩略图

  • 为 PDF 添加文件夹视图,以便可以使用生成的缩略图

  • 为 PDF 添加 OCR 指引

  • 所有内容均可配置,您可以选择不使用缩略图生成或 OCR

  • 使用 HOCR 创建可搜索的 PDF

  • 使用 @@async-monitor URL 监控尚未运行的异步作业

OCR

OCR 需要安装 Ghostscript 和 Tesseract。只需使用您的包管理器安装这些包即可

# sudo apt-get install ghostscript tesseract-ocr

这将安装 tessact 2 而不是 tesseract 3。

可搜索的 PDF

需要从 svn 检出 tesseract 版本 3.01 或 3.00,并启用 hocr 配置。请参阅此主题以了解如何配置 hocr http://ubuntuforums.org/showthread.php?t=1647350

此外,您还需要安装 exactimage 和 pdftk

# sudo apt-get install exactimage pdftk libtiff-tools

如果您不想使用最新版本的 tesseract,则必须在实例声明中添加以下内容

environment-vars += AUTHORIZE_OLD_TESSERACT_VERSION true

Plone 3

  • 需要 hashlib

额外

您可以通过调用 URL @@queue-up-all 一次性转换所有内容。

变更日志

0.7b6 ~ 2012-04-20

-修复卸载

[vangheem]

0.7b5 ~ 2012-04-19

  • 如果已安装 documentviewer,则不运行转换 [vangheem]

  • 添加更好的卸载支持 [vangheem]

0.7b4 ~ 2012-04-09

  • 修复相册视图中的图像 URL。[vangheem]

0.7b3 ~ 2012-04-05

  • 修复缩略图响应的内容类型规范 [vangheem]

  • 在相册视图中显示图像缩略图 URL [vangheem]

0.7b2 ~ 2011-04-12

  • 对读取文件进行更多检查 [vangheem]

  • 提供手动索引文档的按钮 [vangheem]

  • 添加将 PDF 分割成多个 PDF 的功能 [vangheem]

0.7b1 ~ 2011-01-06

  • 修复质量和尺寸问题 [vangheem]

0.6b2 ~ 2011-01-04

  • 修复异步监控视图以与 plone.app.async = 1.0 一起工作。它更改了作业中一些参数的顺序。[vangheem]

0.6b1 ~ 2011-01-04

  • 添加将 PDF 变为可搜索的功能,并使其在安装 wc.pageturner 后无缝工作,以便创建可搜索 PDF 版本的 flex paper。[vangheem]

0.5b5 ~ 2010-12-07

  • 未条件导入 plone.app.async

0.5b4 ~ 2010-12-06

  • 对异步监控提供更多信息

  • 仅在执行 OCR 时重新索引 searchabletext,以确保对象的修改日期不会设置。

  • 确保捕获异常,以免在不良转换后留下文件

  • 为 PDF 文件夹视图添加 colorbox

0.5b3 ~ 2010-12-02

  • 添加排队所有 PDF 文件的功能

0.5b2 - 2010-12-02

  • 修复异步监控视图

0.5b1 - 2010-12-02

  • 初始发布

项目详情


下载文件

下载适用于您的平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源代码分发

wildcard.pdfpal-0.7b6.zip (90.4 kB 查看哈希值)

上传时间 源代码

由以下支持