ruamel.pdfdouble · PyPI · Python 包索引

通过创建哈希数据库扫描和查找重复的PDF文件

这些详情尚未由PyPI验证

项目链接

主页

项目描述

此包提供pdfdbl命令

pdfdbl scan dir1 dir2

这将遍历提供的目录，并对找到的PDF文件，创建基于（按顺序）的哈希

- metadata if unique
- images, if the number of images matches the number of pages
- text

此假设pdfinfo、pdfimages和pdftotext来自poppler-utils包是可用的。

在~/.config/pdfdbl/pdf.lst中构建一个“数据库”，用于对后续扫描进行测试。

移除标记

在ruamel/pdfdouble/pdfdouble.py中，有两个方法可以增强以过滤掉PDF中的标记，使它们不那么独特，并使几乎相同的文件具有不同的哈希值。

对于文本，方法PdfData.filter_for_marking应该扩展以从其参数中的字符串中删除标记，并返回结果。

对于扫描的图像，方法PdfData.process_image_and_update需要增强，例如通过剪切图像底部和顶部的X行，并通过将所有黑色像素设置为白色来移除任何灰色背景文本。此函数需要使用.update()方法传递过滤后的数据来更新传入的哈希。

限制

当前的“数据库”无法处理包含换行符的路径

此实用程序目前仅支持Python 2.7。

项目详情

这些详情尚未由PyPI验证

项目链接

主页

发布历史发布通知 | RSS源

此版本

0.1.2

2015年8月29日

0.1.1

2015年8月27日

0.1

2015年3月20日

下载文件

下载适用于您平台的文件。如果您不确定该选择哪个，请了解更多关于安装包的信息。

源代码分发

ruamel.pdfdouble-0.1.2.tar.gz (11.3 kB 查看哈希值)

上传时间 2015年8月29日 源代码

构建分发

ruamel.pdfdouble-0.1.2-py2.py3-none-any.whl (9.7 kB 查看哈希值)

上传时间 2015年8月29日 Python 2 Python 3

哈希值 for ruamel.pdfdouble-0.1.2.tar.gz

ruamel.pdfdouble-0.1.2.tar.gz 的哈希值
算法	哈希摘要
SHA256	`8986e56d81e751ed204ced7c34f10ab0b8a2a5e3aabe56d287acfbbb86847f3f`
MD5	`527139f4728083d66383af6da5ef7e35`
BLAKE2b-256	`b7d2faaf85f5fbefd36edfc2066a14a8b15b8f675653a0cdb6f2560884a36b17`

哈希值 for ruamel.pdfdouble-0.1.2-py2.py3-none-any.whl

ruamel.pdfdouble-0.1.2-py2.py3-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`01f4aab4e90d7222115e02211aa575db6b8155c68920999639cf01dbb45d3bd1`
MD5	`9b48c5254362501d25c43f502f7ce939`
BLAKE2b-256	`b3a0f96dea16434710cffb34441271ebe9345cbe680caf1912b112f963ecd015`

ruamel.pdfdouble 0.1.2

导航

验证详情

维护者

未验证详情

项目链接

元信息

分类器

项目描述

移除标记

限制

项目详情

验证详情

维护者

未验证详情

项目链接

元信息

分类器

发布历史发布通知 | RSS源

下载文件

源代码分发

构建分发

ruamel.pdfdouble 0.1.2

导航

验证详情

维护者

未验证详情

项目链接

元信息

分类器

项目描述

移除标记

限制

项目详情

验证详情

维护者

未验证详情

项目链接

元信息

分类器

发布历史 发布通知 | RSS源

下载文件

源代码分发

构建分发

发布历史发布通知 | RSS源