collective.soupstrainer

使用BeautifulSoup清理HTML并使用过滤规则。

这些细节尚未由PyPI验证

项目链接

主页

项目描述

通常需要从某些来源清理HTML，无论是用户输入还是通过抓取收集的数据，都需要进行清理。使用 collective.soupstrainer 中的 SoupStrainer 类可以使这个过程变得简单。它使用 beautifulsoup4 来解析和清理HTML。该类的构造函数接受四个参数。

排除项: 这是一个包含两个元素的元组列表。第一个元素是标签名称列表，第二个元素是属性列表。如果属性列表为空，则第一个列表中的每个标签将从传入的HTML中完全删除。如果标签列表为空，则将完全删除列出的每个属性。如果同时列出了标签和属性，则仅从匹配的标签中删除属性。
style_whitelist: 这是允许在 'style' 属性中使用的CSS样式白名单。所有其他样式都将被删除。
class_blacklist: 这是CSS类的黑名单。将从 'class' 属性中删除每个匹配的类。
parser: 这是当strainer用字符串调用时 beautifulsoup4 使用的解析器。它必须是 beautifulsoup4 的已安装解析器，默认为 html.parser

SoupStrainer 类的实例可以直接使用一个参数调用。该参数可以是字符串，在这种情况下，它将内部由 beautifulsoup4 解析，结果将是 unicode（或 Python 3 中的字符串），或者它可以是 beautifulsoup4 创建的解析的HTML树，在这种情况下，它将在原地修改并返回。

变更日志

2.2 (2021-03-25)

不要在要排除的标签第一次替换后停止。 (#8)
添加对 Python 3.8 和 3.9 的支持。

2.1 (2019-02-06)

添加对 Python 3 和 PyPy 的支持。

2.0 (2017-10-19)

向后不兼容的更改

更新到 beautifulsoup4。
向 SoupStrainer 添加一个参数 parser，它指定 beautifulsoup4 使用的解析器。

1.0 - 2008-11-14

初始发布

项目详情

这些细节尚未由PyPI验证

项目链接

主页

发布历史发布通知 | RSS 源

此版本

2.2

2021年3月25日

2.1

2019年2月6日

2.0

2017年10月19日

1.0

2008年11月14日

下载文件

下载适用于您平台的应用程序。如果您不确定选择哪个，请了解更多关于安装包的信息。

源分布

collective.soupstrainer-2.2.tar.gz (10.6 kB 查看哈希值)

上传时间 2021年3月25日 源

构建分布

collective.soupstrainer-2.2-py2.py3-none-any.whl (5.5 kB 查看哈希值)

上传时间 2021年3月25日 Python 2 Python 3

哈希值 for collective.soupstrainer-2.2.tar.gz

collective.soupstrainer-2.2.tar.gz 的哈希值
算法	哈希摘要
SHA256	`f10cb82543ee4c194abfc64c4783e1192b04fb5807382da10c511716715873ff`
MD5	`d194fb3cebeffd9d14c79e6afe982a48`
BLAKE2b-256	`399d6837ea22da3c285518bae2aa839c9fde15104fded108851638e5319e819f`

哈希值 for collective.soupstrainer-2.2-py2.py3-none-any.whl

collective.soupstrainer-2.2-py2.py3-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`b9d6dea2c2fd8649701a277f7a4bb6427cb35a3e9350b52915b2d209442b2879`
MD5	`068d71afb0f9e6110d647dfd2cb492a2`
BLAKE2b-256	`3ca182d584ccc90d860a4d49dd07db18bbde21abb9c50779b147ee1e2966bbed`

collective.soupstrainer 2.2

导航

已验证细节

维护者

未验证细节

项目链接

元数据

分类

项目描述