一个用于使用GPT抓取网站的实验性库。
项目描述
scrapeghost
scrapeghost
是一个用于使用OpenAI的GPT抓取网站的实验性库。
源代码:https://github.com/jamesturk/scrapeghost
文档:https://jamesturk.github.io/scrapeghost/
问题:https://github.com/jamesturk/scrapeghost/issues
自行承担风险。此库会对GPT进行相当昂贵的调用(在中等大小的页面上GPT-4的调用费用为0.36美元。)成本估算基于OpenAI定价页面,并不保证准确。
功能
此库的目的是提供一个方便的接口,用于探索使用GPT进行网络抓取。
虽然大部分工作是由GPT模型完成的,但scrapeghost
提供了一些功能,使其更容易使用。
基于Python的架构定义 - 将您想要提取的数据的形状定义为您想要的任何Python对象,详细程度随意。
预处理
- HTML清理 - 删除不必要的HTML以减少API请求的大小和成本。
- CSS和XPath选择器 - 通过编写单个CSS或XPath选择器预过滤HTML。
- 自动拆分 - 可选地将HTML拆分为多个对模型的调用,允许抓取更大的页面。
后处理
- JSON验证 - 确保响应是有效的JSON。(如果不正确,可以选择将其踢回GPT进行修复。)
- 架构验证 - 更进一步,使用
pydantic
架构验证响应。 - 幻觉检查 - 响应中的数据真的存在于页面上吗?
成本控制
- 爬虫持续记录发送和接收的令牌总数,以便跟踪成本。
- 支持自动回退(例如,默认使用节省成本的GPT-3.5-Turbo,如需则回退至GPT-4)。
- 允许设置预算,并在预算超过时停止爬虫。
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。
源分布
scrapeghost-0.6.0.tar.gz (17.3 kB 查看哈希值)
构建分布
scrapeghost-0.6.0-py3-none-any.whl (19.7 kB 查看哈希值)
关闭
scrapeghost-0.6.0.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 78d49016c59d907f659b6bd3f470555b374fc7a9b085a8feeac31a4f0df59404 |
|
MD5 | 97c7222b804123182dcd49093de18354 |
|
BLAKE2b-256 | 0660fd7bc7b7f3bac6dff42d019de01372120bd91a14055e7ae3db1a3d825f55 |
关闭
scrapeghost-0.6.0-py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 3afa8d6e48cfcc37704c500930763fd5022062e6447f5748ce4771992fac87e1 |
|
MD5 | 9c625a5b17be0cc5bd1f44eef960def6 |
|
BLAKE2b-256 | d9d1d779b4e7ca8195d0514814bc2432e282aaca72be122801a1467000dc17f2 |