提取两个HTML页面之间的差异
项目描述
此包允许您提取两个HTML页面之间的差异:给定页面A和B,它将尝试提取A中在B中更改的部分。它使用底层的lxml.html.diff,但仅提供更改部分作为HTML。
目前需要Python 3。
许可证是MIT。
安装
您可以从PyPI安装此包
pip install extract-html-diff
用法
您可以将差异作为文本提取
import extract_html_diff html = '<div> <h1>My site</h1> <div>My content</div> </div>' other_html = '<div> <h1>My site</h1> <div>Other content</div> </div>' extract_html_diff.as_string(html, other_html)
这将给您
'<div><div>My content</div> </div>'
如果您计划进行额外的转换或更改序列化,您也可以获取作为树(一个lxml.html.HtmlElement)的差异
extract_html_diff.as_tree(html, other_html)
您可以传递输入HTML作为str或bytes(在这种情况下,它将使用lxml.html.fromstring解析),或作为已解析的lxml.html.HtmlElement。
项目详情
关闭
extract-html-diff-0.1.0.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 03f4e40b6d40689e7faf0188422e41bb6915f4be0e3c1cc3f0e0e0bcb9be15f1 |
|
MD5 | 0109b54a677a9d2c710f89002931bc91 |
|
BLAKE2b-256 | d1665d06e4425b484f4f25be50a0d5fa95689214bc3c6802d2fd403784d56220 |