跳转到主要内容

支持所有语言的OCR/HTR引擎

项目描述

描述

https://github.com/mittagessen/kraken/actions/workflows/test.yml/badge.svg

kraken是一个针对历史和非拉丁脚本材料的即用型OCR系统。

kraken的主要功能包括

  • 完全可训练的布局分析、阅读顺序和字符识别

  • 支持从右到左双向文本和从上到下脚本

  • 支持输出ALTO、PageXML、abbyyXML和hOCR

  • 单词边界框和字符裁剪

  • 支持多脚本识别

  • 模型文件公共存储库

  • 可变识别网络架构

安装

kraken仅在Linux或Mac OS X上运行。不支持Windows。

可以从PyPi安装最新稳定版本

$ pip install kraken

或通过conda

$ conda install -c conda-forge -c mittagessen kraken

如果您想直接支持PDF和多图像TIFF/JPEG2000,则必须安装PyPi的pdf附加包。

$ pip install kraken[pdf]

或者使用pip手动安装pyvips

$ pip install pyvips

还提供了Conda环境文件,以便无缝安装主分支。

$ git clone https://github.com/mittagessen/kraken.git
$ cd kraken
$ conda env create -f environment.yml

或者

$ git clone https://github.com/mittagessen/kraken.git
$ cd kraken
$ conda env create -f environment_cuda.yml

使用适当的硬件进行CUDA加速。

最后,您需要找到一个模型来执行实际的字符识别。要下载默认的打印法文文本模型并将其放置在当前用户的kraken目录中

$ kraken get 10.5281/zenodo.10592716

可以通过运行以下命令检索中央仓库中可用的libre模型列表

$ kraken list

快速入门

使用默认参数在图像上识别文本,包括二值化和页面分割的先决步骤

$ kraken -i image.tif image.txt binarize segment ocr

使用nlbin算法将单个图像进行二值化

$ kraken -i image.tif bw.png binarize

使用新的基线分割器对图像(二值化或未二值化)进行分割

$ kraken -i image.tif lines.json segment -bl

使用默认模型对图像进行分割和OCR

$ kraken -i image.tif image.txt segment -bl ocr -m catmus-print-fondue-large.mlmodel

所有子命令和选项都有文档说明。使用帮助选项获取更多信息。

文档

请参阅文档

资助

kraken在École Pratique des Hautes ÉtudesUniversité PSL开发。

Co-financed by the European Union

该项目部分资助来自欧洲联盟的Horizon 2020研究和创新框架计划下的RESILIENCE项目。

Received funding from the Programme d’investissements d’Avenir

这项工作得到了国家研究署根据“未来投资计划”提供的援助,参考编号ANR-21-ESRE-0005(Biblissima+)。

项目详情


发布历史 发布通知 | RSS源

下载文件

下载适用于您的平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源码分发

kraken-5.2.9.tar.gz (12.8 MB 查看哈希值)

上传时间 源码

构建分发

kraken-5.2.9-py3-none-any.whl (5.0 MB 查看哈希值)

上传时间 Python 3

由以下支持