通过创建哈希数据库扫描和查找重复的PDF文件
项目描述
此包提供pdfdbl命令
pdfdbl scan dir1 dir2
这将遍历提供的目录,并对找到的PDF文件,创建基于(按顺序)的哈希
- metadata if unique - images, if the number of images matches the number of pages - text
此假设pdfinfo、pdfimages和pdftotext来自poppler-utils包是可用的。
在~/.config/pdfdbl/pdf.lst中构建一个“数据库”,用于对后续扫描进行测试。
移除标记
在ruamel/pdfdouble/pdfdouble.py中,有两个方法可以增强以过滤掉PDF中的标记,使它们不那么独特,并使几乎相同的文件具有不同的哈希值。
对于文本,方法PdfData.filter_for_marking应该扩展以从其参数中的字符串中删除标记,并返回结果。
对于扫描的图像,方法PdfData.process_image_and_update需要增强,例如通过剪切图像底部和顶部的X行,并通过将所有黑色像素设置为白色来移除任何灰色背景文本。此函数需要使用.update()方法传递过滤后的数据来更新传入的哈希。
限制
当前的“数据库”无法处理包含换行符的路径
此实用程序目前仅支持Python 2.7。
项目详情
下载文件
下载适用于您平台的文件。如果您不确定该选择哪个,请了解更多关于 安装包 的信息。
源代码分发
ruamel.pdfdouble-0.1.2.tar.gz (11.3 kB 查看哈希值)