Python HTML/XML 解析器,易于网页抓取。
项目描述
这是什么?
DHTMLParser 是一个轻量级的 HTML/XML 解析器,专为从 DOM 中快速、轻松地选择选定标签而创建。
当您需要为某些网页编写自己的“游击队”API 或爬虫时,它非常有用。
如果您愿意,您还可以比通过连接字符串更容易地创建 HTML/XML 文档。
文档
完整的模块文档可以在以下位置找到: http://pyDHTMLParser.rtfd.org
更改日志
2.2.3
2020-04-12 修复 #25 (thx https://github.com/fm4d).
2.2.2
尝试修复奇怪的递归继承问题。
2.2.0
重新编写以与 python3 兼容。
2.1.0 - 2.1.8
状态解析器已修复 - 现在可以从类似于 <invalid tag=something"> 的无效 HTML 中恢复。
重新编写以使用 StateEnum 在解析器中,以提高可读性。
在 _raw_split() 期间禁用垃圾收集器。
修复 #16 - 在某些情况下导致无效输出的错误。
关闭 #17 - 实现忽略 < 作为 小于 符号的用法。
恢复了多行属性的兼容性。
.parseString() 现在不会尝试解析 HTML 元素参数。
实现了 first() 获取器。
许可协议更改为 MIT。
修复 #18:在某些情况下导致无效输出的错误。
添加 HTMLElement.__repr__().
添加 test_coverage.sh。
添加扩展的 test_equality() 覆盖率。
格式化改进。
改进了构造函数处理,现在可读性更强。
更新了 setup.py 的格式。
添加了更多测试。
修复了 #22 号问题;SpecialDict 中的 bug。
修复了一些令人头疼的 Unicode 问题。
修复了 docs/__init__.py 中的 python 2/3 问题。
getVersion() -> get_version().
2.0.10
添加了更多 removeTags() 的测试。
run_tests.sh 现在接受参数。
在 removeTags() 中检查字符串时,从 str 更改为 basestring。
2.0.6 - 2.0.9
修复了 toString() 和 tagToString() 的行为。
SpecialDict 现在从 OrderedDict 继承。
修改并添加了 .params 属性的测试(现在使用 OrderedDict)。
修复了 _repair_tags() 中的 bug。
移除了 _repair_tags() - 它实际上并不必要。
修复了一个可能造成无效 XML 输出的严重 bug。
2.0.1 - 2.0.5
修复了 .match() 中的 bug。
修复了文档中的断链问题。
修复了 .isAlmostEqual() 中的 bug。
.find();修复了阻止 tag_name 为 None 的 bug。
为 SpecialDict 添加了 op .__eq__()。
为 HTMLElement 添加了新方法 .containsParamSubset()。
2.0.0
重写、重构、拆分为多个文件。
添加了几乎 100% 的代码的 unittest 覆盖率。
添加了更好的选择器方法(.wfind(),.match)。
添加了 Sphinx 文档。
修复了大量 bug。
项目详情
下载文件
下载您平台的文件。如果您不确定选择哪个,请了解有关 安装包 的更多信息。