用于从HTML文档中去除隐藏表单值的命令行工具
项目描述
strip-hidden-form-values
用于从HTML文档中去除隐藏表单值的命令行工具
你为什么需要这个?想象一下,你正在运行一个Git爬虫,针对包含隐藏表单字段(例如由__VIEWSTATE
字段产生的字段)的网站,这些字段在每次请求时都会改变。你可以将HTML通过此工具传输,以去除这些隐藏表单值,这样只有当页面的其余部分以某种方式修改时,才会记录更改。
scrape-ca-wildlife-rules是使用此工具的存储库的一个例子,有关详细信息,请参阅那里的scrape.yml工作流程。
安装
使用pip
安装此工具
$ pip install strip-hidden-form-values
用法
你可以将HTML传入此工具
curl http://... | strip-hidden-form-values > output.html
或传入文件名
strip-hidden-form-values input.html > output.html
该工具将任何隐藏表单字段的value=
属性替换为空字符串,因此以下内容
<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="p8nVm4PgVPA" />
将被替换为
<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="" />
所有其他HTML保持不变。
开发
要为此工具做出贡献,首先检出代码。然后创建一个新的虚拟环境
cd strip-hidden-form-values
python -m venv venv
source venv/bin/activate
或者如果你正在使用pipenv
pipenv shell
现在安装依赖项和测试依赖项
pip install -e '.[test]'
运行测试
pytest
项目详情
关闭
strip-hidden-form-values-0.2.1.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 61b2aa98602ccabc770b36ebcb8d8d03c8d30872daddce30efa06d31cc083d5f |
|
MD5 | f3346441befff819037fa7a0ffdf3ebe |
|
BLAKE2b-256 | b9b84b5295fed5dc0719102a18146224c95b77272f663acbe91c3eafabb637b8 |
关闭
strip_hidden_form_values-0.2.1-py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 6cedce4300b2cb9998f4efba02a83e95582e2672ee72fd8c5cc6f992d31f0206 |
|
MD5 | e3f9c81266b260026157ec44a37ff15b |
|
BLAKE2b-256 | 9a8634d4ed575ab720eb31079e399f2546aea43b055121e83fd4c068de471341 |