跳转到主要内容

Python HTML/XML 解析器,易于网页抓取。

项目描述

https://badge.fury.io/py/pyDHTMLParser.png https://img.shields.io/pypi/dm/pyDHTMLParser.svg https://readthedocs.org/projects/pyDHTMLParser/badge/?version=latest https://img.shields.io/github/issues/Bystroushaak/pyDHTMLParser.svg https://img.shields.io/pypi/l/pyDHTMLParser.svg

这是什么?

DHTMLParser 是一个轻量级的 HTML/XML 解析器,专为从 DOM 中快速、轻松地选择选定标签而创建。

当您需要为某些网页编写自己的“游击队”API 或爬虫时,它非常有用。

如果您愿意,您还可以比通过连接字符串更容易地创建 HTML/XML 文档。

文档

完整的模块文档可以在以下位置找到: http://pyDHTMLParser.rtfd.org

更改日志

2.2.3

2.2.2

  • 尝试修复奇怪的递归继承问题。

2.2.0

  • 重新编写以与 python3 兼容。

2.1.0 - 2.1.8

  • 状态解析器已修复 - 现在可以从类似于 <invalid tag=something"> 的无效 HTML 中恢复。

  • 重新编写以使用 StateEnum 在解析器中,以提高可读性。

  • 在 _raw_split() 期间禁用垃圾收集器。

  • 修复 #16 - 在某些情况下导致无效输出的错误。

  • 关闭 #17 - 实现忽略 < 作为 小于 符号的用法。

  • 恢复了多行属性的兼容性。

  • .parseString() 现在不会尝试解析 HTML 元素参数。

  • 实现了 first() 获取器。

  • 许可协议更改为 MIT。

  • 修复 #18:在某些情况下导致无效输出的错误。

  • 添加 HTMLElement.__repr__().

  • 添加 test_coverage.sh。

  • 添加扩展的 test_equality() 覆盖率。

  • 格式化改进。

  • 改进了构造函数处理,现在可读性更强。

  • 更新了 setup.py 的格式。

  • 添加了更多测试。

  • 修复了 #22 号问题;SpecialDict 中的 bug。

  • 修复了一些令人头疼的 Unicode 问题。

  • 修复了 docs/__init__.py 中的 python 2/3 问题。

  • getVersion() -> get_version().

2.0.10

  • 添加了更多 removeTags() 的测试。

  • run_tests.sh 现在接受参数。

  • 在 removeTags() 中检查字符串时,从 str 更改为 basestring。

2.0.6 - 2.0.9

  • 修复了 toString() 和 tagToString() 的行为。

  • SpecialDict 现在从 OrderedDict 继承。

  • 修改并添加了 .params 属性的测试(现在使用 OrderedDict)。

  • 修复了 _repair_tags() 中的 bug。

  • 移除了 _repair_tags() - 它实际上并不必要。

  • 修复了一个可能造成无效 XML 输出的严重 bug。

2.0.1 - 2.0.5

  • 修复了 .match() 中的 bug。

  • 修复了文档中的断链问题。

  • 修复了 .isAlmostEqual() 中的 bug。

  • .find();修复了阻止 tag_name 为 None 的 bug。

  • SpecialDict 添加了 op .__eq__()

  • HTMLElement 添加了新方法 .containsParamSubset()

2.0.0

  • 重写、重构、拆分为多个文件。

  • 添加了几乎 100% 的代码的 unittest 覆盖率。

  • 添加了更好的选择器方法(.wfind().match)。

  • 添加了 Sphinx 文档。

  • 修复了大量 bug。

项目详情


下载文件

下载您平台的文件。如果您不确定选择哪个,请了解有关 安装包 的更多信息。

源分布

pyDHTMLParser-2.2.3.tar.gz (417.3 kB 查看散列)

上传时间

构建分布

pyDHTMLParser-2.2.3-py3-none-any.whl (17.7 kB 查看散列)

上传时间 Python 3

由以下机构支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面