nidaba · PyPI · Python 包索引

可扩展和可扩展的OCR管道

项目描述

概述

https://travis-ci.org/OpenPhilology/nidaba.svg

Nidaba是整个OGL OCR管道的中心控制器。它监督并自动化将原始图像转换为可引用的数字化文本集合的过程。

它提供了以下功能

灰度转换
使用Sauvola自适应阈值、Otsu或ocropus的nlbin算法进行二值化
消除倾斜
矫正变形
集成tesseract、kraken和ocropus OCR引擎
从上述OCR软件包进行页面分割
各种后处理工具，如拼写检查、多个结果的合并和真实值比较。

由于它设计用于在网络附加存储上使用公共存储介质以及celery分布式任务队列，因此它非常适合扩展到多机集群。

构建

安装最新稳定（近似）nidaba的最简单方法是来自PyPi

$ pip install nidaba

或在git存储库中运行

$ pip install .

对于 bleeding edge 开发版本。

一些有用的任务有外部依赖。一个良好的开始是

# apt-get install libtesseract3 tesseract-ocr-eng libleptonica-dev liblept

测试

默认情况下，运行测试不需要安装任何词典和OCR模型。要下载必要的文件，请运行

$ python setup.py download

$ python setup.py nosetests

对于调用外部程序的模块的测试，如果未安装，则将跳过tesseract、ocropus和kraken的测试。

运行

首先，编辑（安装的）nidaba.yaml和celery.yaml以适应您的需求。如果您之前没有设置基于celery的应用程序，请查看文档。

然后使用类似以下命令启动celery守护进程

$ celery -A nidaba worker

可以使用 nidaba 可执行文件将后续作业添加到管道中

$ nidaba batch -b otsu -l tesseract -o tesseract:eng -- ./input.tiff
Preparing filestore             [✓]
Building batch                  [✓]
951c57e5-f8a0-432d-8d77-8a2e27fff53c

通过返回码可以检索作业的当前状态

$ nidaba status 25d79a54-9d4a-4939-acb6-8e168d6dbc7c
PENDING

当作业被处理完成后，状态命令将返回包含最终输出的路径列表

$ nidaba status 951c57e5-f8a0-432d-8d77-8a2e27fff53c
SUCCESS
14.tif → .../input_img.rgb_to_gray_binarize.otsu_ocr.tesseract_grc.tif.hocr

文档

想了解更多？阅读文档

项目详情

发布历史发布通知 | RSS 源

本版本

2.0.4

2017年10月26日

2.0.1

2017年3月11日

0.9.8

2016年1月22日

0.9.8.dev10 预发布版

2016年1月22日

0.9.7

2015年11月25日

0.9.6

2015年11月20日

0.9.5

2015年11月19日

0.9.4

2015年10月27日

0.9.3

2015年10月24日

0.9.2

2015年10月24日

0.9.1

2015年10月23日

0.9.0

2015年10月21日

0.6.1

2015年10月9日

0.6.0

2015年9月18日

0.5.4

2015年8月26日

0.5.3

2015年8月25日

0.5.2

2015年8月20日

0.5.1

2015年8月18日

0.5.0

2015年8月17日

0.4.2

2015年8月12日

0.4.1

2015年8月5日

0.4.0

2015年8月4日

0.3.18

2015年6月4日

0.3.17

2015年6月4日

0.3.17.dev19 预发布版

2015年6月2日

0.3.16

2015年6月1日

0.3.15

2015年5月19日

0.3.14

2015年5月18日

0.3.13

2015年5月18日

0.3.11

2015年5月5日

0.3.10

2015年4月29日

0.3.9

2015年4月29日

0.3.8

2015年4月29日

0.3.7

2015年4月21日

0.3.6.post1

2015年4月21日

0.3.6

2015年4月21日

0.3.5

2015年4月21日

0.3.4

2015年4月19日

0.3.3

2015年4月16日

0.3.2

2015年4月15日

0.3.1

2015年4月7日

0.3.0

2015年4月1日

0.2.0

2015年3月24日

0.1.0.post4

2015年3月9日

下载文件

下载适合您平台的文件。如果您不确定选择哪个，请了解有关安装包的更多信息。

源分发

nidaba-2.0.4.tar.gz (1.5 MB 查看哈希值)

上传时间 2017年10月26日 源

构建分发

nidaba-2.0.4-py2-none-any.whl (1.5 MB 查看哈希值)

上传时间 2017年10月26日 Python 2

哈希值 for nidaba-2.0.4.tar.gz

哈希值 for nidaba-2.0.4.tar.gz
算法	哈希摘要
SHA256	`f5df3827852734371604d8aa6cd370f38fa515807f1513e954188341025b7afa`
MD5	`5f1da3ae283d8bee843398a8a4dccff6`
BLAKE2b-256	`bb68a524ba980896eb85fe8d2d9943feaeb4dfff922e9796c4575a15bca8b62e`

哈希值 for nidaba-2.0.4-py2-none-any.whl

哈希值 for nidaba-2.0.4-py2-none-any.whl
算法	哈希摘要
SHA256	`54ef04715183c65fb10a4625987e5faa40f79627734b149cb8da29ce091b1156`
MD5	`8807ffd2e8bdc55d5f2667a500f7bec8`
BLAKE2b-256	`35dc8027248f7c71febec5840dc8ddfd717737060c9c3f0b463919768a6fe6da`

nidaba 2.0.4

导航

已验证详细信息

维护者

未验证详细信息

项目链接

元数据

项目描述

概述

构建

测试

运行

文档

项目详情

已验证详细信息

维护者

未验证详细信息

项目链接

元数据

发布历史发布通知 | RSS 源

下载文件

源分发

构建分发

nidaba 2.0.4

导航

已验证详细信息

维护者

未验证详细信息

项目链接

元数据

项目描述

概述

构建

测试

运行

文档

项目详情

已验证详细信息

维护者

未验证详细信息

项目链接

元数据

发布历史 发布通知 | RSS 源

下载文件

源分发

构建分发

发布历史发布通知 | RSS 源