跳转到主要内容

简单PDF文本提取

项目描述

pdftotext

PyPI Status Azure Status AppVeyor status Coverage Status Downloads

简单PDF文本提取

import pdftotext

# Load your PDF
with open("lorem_ipsum.pdf", "rb") as f:
    pdf = pdftotext.PDF(f)

# If it's password-protected
with open("secure.pdf", "rb") as f:
    pdf = pdftotext.PDF(f, "secret")

# How many pages?
print(len(pdf))

# Iterate over all the pages
for page in pdf:
    print(page)

# Read some individual pages
print(pdf[0])
print(pdf[1])

# Read all the text into one string
print("\n\n".join(pdf))

操作系统依赖

以下说明假设您正在使用最新操作系统上的Python 3。对于Python 2或较旧操作系统,包名可能不同。

Debian, Ubuntu等

sudo apt install build-essential libpoppler-cpp-dev pkg-config python3-dev

Fedora, Red Hat等

sudo yum install gcc-c++ pkgconfig poppler-cpp-devel python3-devel

macOS

brew install pkg-config poppler python

Windows

目前仅在conda使用时进行测试

  • 安装Microsoft Visual C++构建工具
  • 通过conda安装poppler
    conda install -c conda-forge poppler
    

安装

pip install pdftotext

项目详情


下载文件

下载适用于您的平台文件。如果您不确定选择哪个,请了解更多关于 安装软件包 的信息。

源分布

pdftotext-2.2.2.tar.gz (113.9 kB 查看哈希值)

上传时间:

由以下支持