跳转到主要内容

通过创建哈希数据库扫描和查找重复的PDF文件

项目描述

此包提供pdfdbl命令

pdfdbl scan dir1 dir2

这将遍历提供的目录,并对找到的PDF文件,创建基于(按顺序)的哈希

- metadata if unique
- images, if the number of images matches the number of pages
- text

此假设pdfinfopdfimagespdftotext来自poppler-utils包是可用的。

~/.config/pdfdbl/pdf.lst中构建一个“数据库”,用于对后续扫描进行测试。

移除标记

在ruamel/pdfdouble/pdfdouble.py中,有两个方法可以增强以过滤掉PDF中的标记,使它们不那么独特,并使几乎相同的文件具有不同的哈希值。

对于文本,方法PdfData.filter_for_marking应该扩展以从其参数中的字符串中删除标记,并返回结果。

对于扫描的图像,方法PdfData.process_image_and_update需要增强,例如通过剪切图像底部和顶部的X行,并通过将所有黑色像素设置为白色来移除任何灰色背景文本。此函数需要使用.update()方法传递过滤后的数据来更新传入的哈希。

限制

当前的“数据库”无法处理包含换行符的路径

此实用程序目前仅支持Python 2.7。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定该选择哪个,请了解更多关于 安装包 的信息。

源代码分发

ruamel.pdfdouble-0.1.2.tar.gz (11.3 kB 查看哈希值)

上传时间 源代码

构建分发

ruamel.pdfdouble-0.1.2-py2.py3-none-any.whl (9.7 kB 查看哈希值)

上传时间 Python 2 Python 3