跳转到主要内容

可扩展和可扩展的OCR管道

项目描述

概述

https://travis-ci.org/OpenPhilology/nidaba.svg

Nidaba是整个OGL OCR管道的中心控制器。它监督并自动化将原始图像转换为可引用的数字化文本集合的过程。

它提供了以下功能

  • 灰度转换

  • 使用Sauvola自适应阈值、Otsu或ocropus的nlbin算法进行二值化

  • 消除倾斜

  • 矫正变形

  • 集成tesseract、kraken和ocropus OCR引擎

  • 从上述OCR软件包进行页面分割

  • 各种后处理工具,如拼写检查、多个结果的合并和真实值比较。

由于它设计用于在网络附加存储上使用公共存储介质以及celery分布式任务队列,因此它非常适合扩展到多机集群。

构建

安装最新稳定(近似)nidaba的最简单方法是来自PyPi

$ pip install nidaba

或在git存储库中运行

$ pip install .

对于 bleeding edge 开发版本。

一些有用的任务有外部依赖。一个良好的开始是

# apt-get install libtesseract3 tesseract-ocr-eng libleptonica-dev liblept

测试

默认情况下,运行测试不需要安装任何词典和OCR模型。要下载必要的文件,请运行

$ python setup.py download
$ python setup.py nosetests

对于调用外部程序的模块的测试,如果未安装,则将跳过tesseract、ocropus和kraken的测试。

运行

首先,编辑(安装的)nidaba.yaml和celery.yaml以适应您的需求。如果您之前没有设置基于celery的应用程序,请查看文档

然后使用类似以下命令启动celery守护进程

$ celery -A nidaba worker

可以使用 nidaba 可执行文件将后续作业添加到管道中

$ nidaba batch -b otsu -l tesseract -o tesseract:eng -- ./input.tiff
Preparing filestore             [✓]
Building batch                  [✓]
951c57e5-f8a0-432d-8d77-8a2e27fff53c

通过返回码可以检索作业的当前状态

$ nidaba status 25d79a54-9d4a-4939-acb6-8e168d6dbc7c
PENDING

当作业被处理完成后,状态命令将返回包含最终输出的路径列表

$ nidaba status 951c57e5-f8a0-432d-8d77-8a2e27fff53c
SUCCESS
14.tif → .../input_img.rgb_to_gray_binarize.otsu_ocr.tesseract_grc.tif.hocr

文档

想了解更多? 阅读文档

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解有关 安装包 的更多信息。

源分发

nidaba-2.0.4.tar.gz (1.5 MB 查看哈希值)

上传时间

构建分发

nidaba-2.0.4-py2-none-any.whl (1.5 MB 查看哈希值)

上传时间 Python 2

支持者:

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面