简单PDF文本提取

项目描述

pdftotext

简单PDF文本提取

import pdftotext

# Load your PDF
with open("lorem_ipsum.pdf", "rb") as f:
    pdf = pdftotext.PDF(f)

# If it's password-protected
with open("secure.pdf", "rb") as f:
    pdf = pdftotext.PDF(f, "secret")

# How many pages?
print(len(pdf))

# Iterate over all the pages
for page in pdf:
    print(page)

# Read some individual pages
print(pdf[0])
print(pdf[1])

# Read all the text into one string
print("\n\n".join(pdf))

操作系统依赖

以下说明假设您正在使用最新操作系统上的Python 3。对于Python 2或较旧操作系统，包名可能不同。

Debian, Ubuntu等

sudo apt install build-essential libpoppler-cpp-dev pkg-config python3-dev

Fedora, Red Hat等

sudo yum install gcc-c++ pkgconfig poppler-cpp-devel python3-devel

macOS

brew install pkg-config poppler python

Windows

目前仅在conda使用时进行测试

安装Microsoft Visual C++构建工具
通过conda安装poppler
```
conda install -c conda-forge poppler
```

安装

pip install pdftotext

项目详情

发布历史发布通知 | RSS源

此版本

2.2.2

2021年11月23日

2.2.1

2021年10月1日

2.2.0

2021年8月16日

2.1.6

2021年5月14日

2.1.5

2020年8月14日

2.1.4

2020年1月25日

2.1.3

2020年1月7日

2.1.2

2019年8月7日

2.1.1

2018年10月7日

2.1.0

2018年5月31日

2.0.2

2018年2月20日

2.0.1

2017年8月10日

2.0.0

2017年7月23日

1.1.0

2017年7月18日

1.0.0

2017年6月10日

下载文件

下载适用于您的平台文件。如果您不确定选择哪个，请了解更多关于安装软件包的信息。

源分布

pdftotext-2.2.2.tar.gz (113.9 kB 查看哈希值)

上传时间: 2021年11月23日 源

pdftotext-2.2.2.tar.gz的哈希值

pdftotext-2.2.2.tar.gz的哈希值
算法	哈希摘要
SHA256	`2a9aa89bc62022408781b39d188fabf5a3ad1103b6630f32c4e27e395f7966ee`
MD5	`8814a3bdc5c9ad6bc6c3189914b597af`
BLAKE2b-256	`e0e379a2ad7ca71160fb6442772155389881672c98bd44c6022303ce242cbfb9`

pdftotext 2.2.2

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

pdftotext

操作系统依赖

Debian, Ubuntu等

Fedora, Red Hat等

macOS

Windows

安装

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史发布通知 | RSS源

下载文件

源分布

pdftotext 2.2.2

导航

验证详情

维护者

未验证详情

项目链接

元数据

分类器

项目描述

pdftotext

操作系统依赖

Debian, Ubuntu等

Fedora, Red Hat等

macOS

Windows

安装

项目详情

验证详情

维护者

未验证详情

项目链接

元数据

分类器

发布历史 发布通知 | RSS源

下载文件

源分布

发布历史发布通知 | RSS源