跳至主要内容

提取两个HTML页面之间的差异

项目描述

PyPI Version Build Status Code Coverage

此包允许您提取两个HTML页面之间的差异:给定页面A和B,它将尝试提取A中在B中更改的部分。它使用底层的lxml.html.diff,但仅提供更改部分作为HTML。

目前需要Python 3。

许可证是MIT。

安装

您可以从PyPI安装此包

pip install extract-html-diff

用法

您可以将差异作为文本提取

import extract_html_diff

html = '<div> <h1>My site</h1> <div>My content</div> </div>'
other_html = '<div> <h1>My site</h1> <div>Other content</div> </div>'

extract_html_diff.as_string(html, other_html)

这将给您

'<div><div>My content</div>  </div>'

如果您计划进行额外的转换或更改序列化,您也可以获取作为树(一个lxml.html.HtmlElement)的差异

extract_html_diff.as_tree(html, other_html)

您可以传递输入HTML作为str或bytes(在这种情况下,它将使用lxml.html.fromstring解析),或作为已解析的lxml.html.HtmlElement。

项目详情


下载文件

下载适用于您的平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源分布

extract-html-diff-0.1.0.tar.gz (4.5 kB 查看哈希值)

上传时间 源代码

支持者