网络抓取库
项目描述
Beautiful Soup是一个库,它使从网页中抓取信息变得简单。它位于HTML或XML解析器之上,为迭代、搜索和修改解析树提供Pythonic惯用语法。
快速开始
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup("<p>Some<b>bad<i>HTML")
>>> print(soup.prettify())
<html>
<body>
<p>
Some
<b>
bad
<i>
HTML
</i>
</b>
</p>
</body>
</html>
>>> soup.find(text="bad")
'bad'
>>> soup.i
<i>HTML</i>
#
>>> soup = BeautifulSoup("<tag1>Some<tag2/>bad<tag3>XML", "xml")
#
>>> print(soup.prettify())
<?xml version="1.0" encoding="utf-8"?>
<tag1>
Some
<tag2/>
bad
<tag3>
XML
</tag3>
</tag1>
要超越基础,请参阅全面文档。
链接
关于Python 2的弃用说明
Beautiful Soup对Python 2的支持已于2020年12月31日停止:在Python 2本身停用日期后一年。从现在开始,新的Beautiful Soup开发将仅针对Python 3。支持Python 2的Beautiful Soup 4的最终版本是4.9.3。
支持项目
如果您将Beautiful Soup作为您专业工作的一部分,请考虑Tidelift订阅。这将支持您组织依赖的许多免费软件项目,而不仅仅是Beautiful Soup。
如果您将Beautiful Soup用于个人项目,最好的感谢方式是阅读我写的关于Beautiful Soup在软件开发中教会我的《工具安全》(Tool Safety)小册子。
构建文档
bs4/doc/目录包含Sphinx格式的完整文档。在该目录中运行make html
以创建HTML文档。
运行单元测试
Beautiful Soup支持使用Pytest进行单元测试发现。
$ pytest
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源代码分布
beautifulsoup4-4.12.3.tar.gz (581.2 kB 查看哈希值)
构建分布
beautifulsoup4-4.12.3-py3-none-any.whl (147.9 kB 查看哈希值)