跳转到主要内容

用于从HTML文档中去除隐藏表单值的命令行工具

项目描述

strip-hidden-form-values

PyPI Changelog Tests License

用于从HTML文档中去除隐藏表单值的命令行工具

你为什么需要这个?想象一下,你正在运行一个Git爬虫,针对包含隐藏表单字段(例如由__VIEWSTATE字段产生的字段)的网站,这些字段在每次请求时都会改变。你可以将HTML通过此工具传输,以去除这些隐藏表单值,这样只有当页面的其余部分以某种方式修改时,才会记录更改。

scrape-ca-wildlife-rules是使用此工具的存储库的一个例子,有关详细信息,请参阅那里的scrape.yml工作流程。

安装

使用pip安装此工具

$ pip install strip-hidden-form-values

用法

你可以将HTML传入此工具

curl http://... | strip-hidden-form-values > output.html

或传入文件名

strip-hidden-form-values input.html > output.html

该工具将任何隐藏表单字段的value=属性替换为空字符串,因此以下内容

<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="p8nVm4PgVPA" />

将被替换为

<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="" />

所有其他HTML保持不变。

开发

要为此工具做出贡献,首先检出代码。然后创建一个新的虚拟环境

cd strip-hidden-form-values
python -m venv venv
source venv/bin/activate

或者如果你正在使用pipenv

pipenv shell

现在安装依赖项和测试依赖项

pip install -e '.[test]'

运行测试

pytest

项目详情


下载文件

下载适用于您的平台的文件。如果您不确定选择哪个,请了解有关安装软件包的更多信息。

源代码分发

strip-hidden-form-values-0.2.1.tar.gz (7.0 kB 查看哈希值)

上传时间 源代码

构建分发

strip_hidden_form_values-0.2.1-py3-none-any.whl (7.8 kB 查看哈希值)

上传时间 Python 3

支持者