pdftoppm和pdftocairo命令行工具的包装器，用于将PDF转换为PIL Image列表。

这些详情未经PyPI验证

项目链接

主页

项目描述

pdf2image

一个Python (3.7+) 模块，用于包装pdftoppm和pdftocairo以将PDF转换为PIL Image对象

如何安装

pip install pdf2image

Windows

Windows用户必须构建或下载Windows的poppler。我推荐使用 @oschwartz10612 版本，这是最新的。然后您需要将 bin/ 文件夹添加到 PATH，或在 convert_from_path 中使用 poppler_path = r"C:\path\to\poppler-xx\bin" as an argument。

Mac

Mac用户需要安装 poppler。

使用 Brew 安装

brew install poppler

Linux

大多数发行版都自带 pdftoppm 和 pdftocairo。如果未安装，请参考您的包管理器安装 poppler-utils

平台无关性（使用 `conda`）

安装poppler: conda install -c conda-forge poppler
安装pdf2image: pip install pdf2image

它是如何工作的？

from pdf2image import convert_from_path, convert_from_bytes
from pdf2image.exceptions import (
    PDFInfoNotInstalledError,
    PDFPageCountError,
    PDFSyntaxError
)

然后只需这样做

images = convert_from_path('/home/belval/example.pdf')

或者

images = convert_from_bytes(open('/home/belval/example.pdf', 'rb').read())

或者更好的是

import tempfile

with tempfile.TemporaryDirectory() as path:
    images_from_path = convert_from_path('/home/belval/example.pdf', output_folder=path)
    # Do something here

images 将是一个包含PDF文档每页的PIL Image对象的列表。

以下是定义

convert_from_path(pdf_path, dpi=200, output_folder=None, first_page=None, last_page=None, fmt='ppm', jpegopt=None, thread_count=1, userpw=None, use_cropbox=False, strict=False, transparent=False, single_file=False, output_file=str(uuid.uuid4()), poppler_path=None, grayscale=False, size=None, paths_only=False, use_pdftocairo=False, timeout=600, hide_attributes=False)

convert_from_bytes(pdf_file, dpi=200, output_folder=None, first_page=None, last_page=None, fmt='ppm', jpegopt=None, thread_count=1, userpw=None, use_cropbox=False, strict=False, transparent=False, single_file=False, output_file=str(uuid.uuid4()), poppler_path=None, grayscale=False, size=None, paths_only=False, use_pdftocairo=False, timeout=600, hide_attributes=False)

有什么新功能？

允许用户在使用pdftoppm时隐藏属性（感谢@StaticRocket）
修复了在Windows上打开控制台的问题（感谢@OhMyAgnes！）
添加了timeout参数，在给定秒数后引发PDFPopplerTimeoutError。
添加了use_pdftocairo参数，强制pdf2image使用pdftocairo。应该会提高性能。
修复了一个在使用多个线程的pdf2image（但不是多个进程）时引发异常的bug
jpegopt参数允许在fmt="jpeg"时调整输出JPEG（pdftoppm CLI中的-jpegopt）（感谢@abieler）
pdfinfo_from_path和pdfinfo_from_bytes，它们公开了pdfinfo CLI的输出
paths_only参数将返回图像路径而不是Image对象，以防止在转换大PDF时出现内存不足
size参数允许您定义结果的图像形状（pdftoppm CLI中的-scale-to）
- size=400 将图像适应到400x400的框中，保持宽高比
- size=(400, None)将图像宽度调整为400像素，保持宽高比
- size=(500, 500)将图像大小调整为500x500像素，不保持宽高比
grayscale参数允许您将图像转换为灰度（pdftoppm CLI中的-gray）
single_file参数允许您仅转换第一个PDF页面，而不在output_file的末尾添加数字
允许用户通过poppler_path指定poppler的安装路径

性能提示

如果使用SSD，使用输出文件夹会显著提高速度。否则，i/o通常会变成瓶颈。
使用多个线程可以带来一些收益，但避免超过4个，因为这会导致i/o瓶颈（即使在NVMe SSD上！）
如果i/o是瓶颈，使用JPEG格式可以带来显著收益。
PNG格式相当慢，这是因为压缩。
如果您想了解最佳设置（大多数设置都很好），可以克隆项目并运行python tests.py以获取时间

限制/已知问题

相对较大的PDF将耗尽您的内存并导致进程被终止（除非使用输出文件夹）
有时DocuSign签名PDF读取失败，请参阅DocuSign问题解决方案。

项目详情

这些详情未经PyPI验证

项目链接

主页

发布历史发布通知 | RSS源

本版本

1.17.0

2024年1月7日

1.16.3

2023年2月26日

1.16.2

2022年12月31日

1.16.0

2021年6月23日

1.15.1

2021年5月12日

1.15.0

2021年5月12日

1.14.0

2020年8月23日

1.13.1

2020年4月30日

1.13.0 已撤回

2020年4月30日

1.12.1

2020年2月17日

1.11.0

2019年12月19日

1.10.0

2019年11月4日

1.9.0

2019年9月21日

1.8.0

2019年9月15日

1.7.1

2019年9月3日

1.7.0

2019年8月27日

1.6.0

2019年7月3日

1.5.4

2019年4月30日

1.5.3

2019年4月28日

1.5.2

2019年4月27日

1.5.1

2019年3月24日

1.5.0

2019年3月23日

1.4.2

2019年2月28日

1.4.1

2019年1月29日

1.4.0

2019年1月9日

1.3.1

2018年12月29日

1.3.0

2018年12月26日

1.2.1

2018年12月19日

1.2.0

2018年12月17日

1.1.0

2018年11月20日

1.0.0

2018年9月13日

0.1.14

2018年6月10日

0.1.13

2018年5月29日

0.1.12

2018年5月29日

0.1.11

2018年5月2日

0.1.10

2018年3月25日

0.1.9

2018年3月20日

0.1.7

2018年2月3日

0.1.6

2017年11月14日

0.1.5

2017年10月24日

0.1.4

2017年6月4日

0.1.3

2017年6月4日

0.1.2

2017年6月4日

0.1.1

2017年6月4日

0.1.0

2017年6月4日

下载文件

下载适合您平台的文件。如果您不确定该选择哪个，请了解有关安装包的更多信息。

源分发

pdf2image-1.17.0.tar.gz (12.8 kB 查看哈希值)

上传时间 2024年1月7日 源

构建分发

pdf2image-1.17.0-py3-none-any.whl (11.6 kB 查看哈希值)

上传时间 2024年1月7日 Python 3

哈希值 for pdf2image-1.17.0.tar.gz

哈希值 for pdf2image-1.17.0.tar.gz
算法	哈希摘要
SHA256	`eaa959bc116b420dd7ec415fcae49b98100dda3dd18cd2fdfa86d09f112f6d57`
MD5	`989a182455d439b3a58640031e14652c`
BLAKE2b-256	`00d8b280f01045555dc257b8153c00dee3bc75830f91a744cd5f84ef3a0a64b1`

哈希值 for pdf2image-1.17.0-py3-none-any.whl

哈希值 for pdf2image-1.17.0-py3-none-any.whl
算法	哈希摘要
SHA256	`ecdd58d7afb810dffe21ef2b1bbc057ef434dabbac6c33778a38a3f7744a27e2`
MD5	`34470f853c84ebed2d342d975222e9c3`
BLAKE2b-256	`623361766ae033518957f877ab246f87ca30a85b778ebaad65b7f74fa7e52988`

pdf2image 1.17.0

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

pdf2image

如何安装

Windows

Mac

Linux

平台无关性（使用 `conda`）

它是如何工作的？

有什么新功能？

性能提示

限制/已知问题

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史发布通知 | RSS源

下载文件

源分发

构建分发

pdf2image 1.17.0

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

pdf2image

如何安装

Windows

Mac

Linux

平台无关性（使用 conda）

它是如何工作的？

有什么新功能？

性能提示

限制/已知问题

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史 发布通知 | RSS源

下载文件

源分发

构建分发

平台无关性（使用 `conda`）

发布历史发布通知 | RSS源