跳转到主要内容

网络抓取库

项目描述

Beautiful Soup是一个库,它使从网页中抓取信息变得简单。它位于HTML或XML解析器之上,为迭代、搜索和修改解析树提供Pythonic惯用语法。

快速开始

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup("<p>Some<b>bad<i>HTML")
>>> print(soup.prettify())
<html>
 <body>
  <p>
   Some
   <b>
    bad
    <i>
     HTML
    </i>
   </b>
  </p>
 </body>
</html>
>>> soup.find(text="bad")
'bad'
>>> soup.i
<i>HTML</i>
#
>>> soup = BeautifulSoup("<tag1>Some<tag2/>bad<tag3>XML", "xml")
#
>>> print(soup.prettify())
<?xml version="1.0" encoding="utf-8"?>
<tag1>
 Some
 <tag2/>
 bad
 <tag3>
  XML
 </tag3>
</tag1>

要超越基础,请参阅全面文档

链接

关于Python 2的弃用说明

Beautiful Soup对Python 2的支持已于2020年12月31日停止:在Python 2本身停用日期后一年。从现在开始,新的Beautiful Soup开发将仅针对Python 3。支持Python 2的Beautiful Soup 4的最终版本是4.9.3。

支持项目

如果您将Beautiful Soup作为您专业工作的一部分,请考虑Tidelift订阅。这将支持您组织依赖的许多免费软件项目,而不仅仅是Beautiful Soup。

如果您将Beautiful Soup用于个人项目,最好的感谢方式是阅读我写的关于Beautiful Soup在软件开发中教会我的《工具安全》(Tool Safety)小册子。

构建文档

bs4/doc/目录包含Sphinx格式的完整文档。在该目录中运行make html以创建HTML文档。

运行单元测试

Beautiful Soup支持使用Pytest进行单元测试发现。

$ pytest

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源代码分布

beautifulsoup4-4.12.3.tar.gz (581.2 kB 查看哈希值)

上传日期 源代码

构建分布

beautifulsoup4-4.12.3-py3-none-any.whl (147.9 kB 查看哈希值)

上传日期 Python 3

由以下机构支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面