跳转到主要内容

库:通过保留祖先和清理CSS来提取HTML元素

项目描述

pypi github-actions readthedocs

Chopper是一个工具,通过保留祖先和CSS规则从HTML中提取元素。

兼容Python >= 3.8

安装

pip install chopper

完整文档

http://chopper.readthedocs.org/en/latest/

快速开始

from chopper.extractor import Extractor

HTML = """
<html>
  <head>
    <title>Test</title>
  </head>
  <body>
    <div id="header"></div>
    <div id="main">
      <div class="iwantthis">
        HELLO WORLD
        <a href="/nope">Do not want</a>
      </div>
    </div>
    <div id="footer"></div>
  </body>
</html>
"""

CSS = """
div { border: 1px solid black; }
div#main { color: blue; }
div.iwantthis { background-color: red; }
a { color: green; }
div#footer { border-top: 2px solid red; }
"""

extractor = Extractor.keep('//div[@class="iwantthis"]').discard('//a')
html, css = extractor.extract(HTML, CSS)

结果是

>>> html
"""
<html>
  <body>
    <div id="main">
      <div class="iwantthis">
        HELLO WORLD
      </div>
    </div>
  </body>
</html>"""

>>> css
"""
div{border:1px solid black;}
div#main{color:blue;}
div.iwantthis{background-color:red;}
"""

项目详情


下载文件

下载适用于您的平台的文件。如果您不确定选择哪个,请了解安装包的更多信息。

源分布

chopper-0.6.0.linux-x86_64.tar.gz (22.6 kB 查看哈希值)

上传时间:

构建分布

chopper-0.6.0-py3-none-any.whl (16.4 kB 查看哈希值)

上传时间 Python 3

支持