可扩展和可扩展的OCR管道
项目描述
概述
Nidaba是整个OGL OCR管道的中心控制器。它监督并自动化将原始图像转换为可引用的数字化文本集合的过程。
它提供了以下功能
灰度转换
使用Sauvola自适应阈值、Otsu或ocropus的nlbin算法进行二值化
消除倾斜
矫正变形
集成tesseract、kraken和ocropus OCR引擎
从上述OCR软件包进行页面分割
各种后处理工具,如拼写检查、多个结果的合并和真实值比较。
由于它设计用于在网络附加存储上使用公共存储介质以及celery分布式任务队列,因此它非常适合扩展到多机集群。
构建
安装最新稳定(近似)nidaba的最简单方法是来自PyPi
$ pip install nidaba
或在git存储库中运行
$ pip install .
对于 bleeding edge 开发版本。
一些有用的任务有外部依赖。一个良好的开始是
# apt-get install libtesseract3 tesseract-ocr-eng libleptonica-dev liblept
测试
默认情况下,运行测试不需要安装任何词典和OCR模型。要下载必要的文件,请运行
$ python setup.py download
$ python setup.py nosetests
对于调用外部程序的模块的测试,如果未安装,则将跳过tesseract、ocropus和kraken的测试。
运行
首先,编辑(安装的)nidaba.yaml和celery.yaml以适应您的需求。如果您之前没有设置基于celery的应用程序,请查看文档。
然后使用类似以下命令启动celery守护进程
$ celery -A nidaba worker
可以使用 nidaba 可执行文件将后续作业添加到管道中
$ nidaba batch -b otsu -l tesseract -o tesseract:eng -- ./input.tiff Preparing filestore [✓] Building batch [✓] 951c57e5-f8a0-432d-8d77-8a2e27fff53c
通过返回码可以检索作业的当前状态
$ nidaba status 25d79a54-9d4a-4939-acb6-8e168d6dbc7c PENDING
当作业被处理完成后,状态命令将返回包含最终输出的路径列表
$ nidaba status 951c57e5-f8a0-432d-8d77-8a2e27fff53c SUCCESS 14.tif → .../input_img.rgb_to_gray_binarize.otsu_ocr.tesseract_grc.tif.hocr
文档
想了解更多? 阅读文档
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解有关 安装包 的更多信息。
源分发
nidaba-2.0.4.tar.gz (1.5 MB 查看哈希值)
构建分发
nidaba-2.0.4-py2-none-any.whl (1.5 MB 查看哈希值)