从远程站点页面抓取浏览器可能会下载的所有资源
项目描述
快速信息
假设您需要在网页上使用HTTP负载测试和基准测试工具siege,并且您还希望使用--internet选项,以最好地模拟浏览器的行为。
当浏览器加载一个页面时,它也会加载该页面内的所有资源
图片
JavaScript文件
CSS
媒体资源
因此,您需要从该页面获取所有URL的列表。
此实用程序(其名称意味着“您将下载”)将为您创建此列表。
您只需将实用程序输出重定向到文件,然后使用siege的--file选项。
用法
$ youlldownload http://host.com/section/page
与 siege 一起使用
$ youlldownload http://host.com/section/page > list.txt $ siege -i -f list.txt [other options]
获取资源
从 script 标签中,我们将获取 src URL
从具有 rel 等于 stylesheet 的 link 标签中,我们将获取 href URL
从 img 标签中,我们将获取 src URL
从 object 标签中,我们将获取 data URL
从 embed 标签中,我们将获取 src URL
从 style 标签中,如果标签使用了“@import url”指令,我们将获取标签内的 URL
从 iframe 标签中,我们将获取 src URL
从 video 标签内的 source 标签中,我们将获取 src URL
此外:CSS 源代码将被深入分析,以查找其中的额外资源(如背景图像、字体等)。
变更日志
0.4 (2015-11-06)
修复 setup.py 以正确创建包 [ale-rt]
0.3 (2015-05-28)
从最终报告中删除重复的 URL [keul]
如果不包含锚点的 URL 的相同版本,则不包含 [keul]
检查 CSS(背景图像、字体等)中的资源 [keul]
如果没有提供“base”标签,则脚本在没有主页的情况下无法正常工作 [keul]
0.2 (2014-04-02)
添加了对 iframe 标签的 src 属性的支持 [keul]
添加了对 source 标签(HTML 5 视频元素)的 src 属性的支持 [keul]
如果不存在“base”标签,则不中断 [keul]
0.1 (2013-01-30)
初始发布
项目详情
YoullDownload-0.4.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | a33659b8ab1be1535c471065997995d0cb117933bf40e03a3d71225b650b718c |
|
MD5 | 512c2f41ca1c9e62291a6eadf20447ed |
|
BLAKE2b-256 | cb0f013c09c25d8dce5a6088c783d6748ea316a3108c37f0d4fc825f200e505f |