跳转到主要内容

一个用于使用GPT抓取网站的实验性库。

项目描述

scrapeghost

scrapeghost logo

scrapeghost是一个用于使用OpenAI的GPT抓取网站的实验性库。

源代码:https://github.com/jamesturk/scrapeghost

文档:https://jamesturk.github.io/scrapeghost/

问题:https://github.com/jamesturk/scrapeghost/issues

PyPI badge Test badge

自行承担风险。此库会对GPT进行相当昂贵的调用(在中等大小的页面上GPT-4的调用费用为0.36美元。)成本估算基于OpenAI定价页面,并不保证准确。

功能

此库的目的是提供一个方便的接口,用于探索使用GPT进行网络抓取。

虽然大部分工作是由GPT模型完成的,但scrapeghost提供了一些功能,使其更容易使用。

基于Python的架构定义 - 将您想要提取的数据的形状定义为您想要的任何Python对象,详细程度随意。

预处理

  • HTML清理 - 删除不必要的HTML以减少API请求的大小和成本。
  • CSS和XPath选择器 - 通过编写单个CSS或XPath选择器预过滤HTML。
  • 自动拆分 - 可选地将HTML拆分为多个对模型的调用,允许抓取更大的页面。

后处理

  • JSON验证 - 确保响应是有效的JSON。(如果不正确,可以选择将其踢回GPT进行修复。)
  • 架构验证 - 更进一步,使用pydantic架构验证响应。
  • 幻觉检查 - 响应中的数据真的存在于页面上吗?

成本控制

  • 爬虫持续记录发送和接收的令牌总数,以便跟踪成本。
  • 支持自动回退(例如,默认使用节省成本的GPT-3.5-Turbo,如需则回退至GPT-4)。
  • 允许设置预算,并在预算超过时停止爬虫。

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源分布

scrapeghost-0.6.0.tar.gz (17.3 kB 查看哈希值)

上传时间

构建分布

scrapeghost-0.6.0-py3-none-any.whl (19.7 kB 查看哈希值)

上传时间 Python 3

由以下提供支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面