跳转到主要内容

Google Shopping Scraper可以抓取和解析各种Google Shopping页面类型,以收集结构化电子商务数据。

项目描述

Google Shopping Scraper

Oxylabs promo code

作为电子商务Scraper API的一部分,Google Shopping Scraper以原始HTML或结构化JSON格式提取及时电子商务数据。该抓取器提供免维护的数据收集基础设施,自动处理底层过程的绝大部分,从发送HTTP请求到数据解析。

底层措施,如代理,可以显著减少CAPTCHA和IP封禁。抓取器支持来自全球几乎所有地区(195个国家)的本地化结果,具有国家层面和邮政编码定位。

此外,抓取器可以通过调度器自动执行重复抓取和解析任务,加载使用JavaScript进行内容渲染的动态网站,并通过API或直接到Google Cloud Storage或Amazon S3存储桶检索结果。

工作原理

我们可以在Google Shopping上抓取和解析各种页面类型。您可以通过专门构建的数据源(例如搜索产品产品定价)提供完整的URL或几个输入参数,我们可以在端形成URL。

概述

以下是我们支持的所有可用数据值的快速概述。

描述 结构化数据
谷歌 提交您喜欢的任何谷歌购物URL。 取决于URL。
google_shopping_search 搜索您选择的搜索词的结果。 是。
google_shopping_product 您选择的商品ID的商品页面。 是。
google_shopping_pricing 您选择的商品ID可用的报价列表。 是。

URL

google源设计用于从各种谷歌购物URL检索内容。您不必发送多个参数并让我们构建和抓取谷歌购物URL,您可以直接提供所需谷歌购物页面的URL。我们不会删除任何参数或以任何其他方式修改您的URL。

此数据源还支持解析数据(JSON格式的结构化数据),只要提交的URL链接到的页面是我们可以解析的页面。

查询参数

参数 描述 默认值
source 数据源。更多信息请参阅此处 谷歌
url 指向谷歌页面的直接URL(链接) -
user_agent_type 设备类型和浏览器。完整列表可以在这里找到。 桌面
render 启用JavaScript渲染。更多信息请参阅此处
callback_url 您的回调端点URL。更多信息请参阅此处 -
geo_location 结果应适应的地理位置。正确使用此参数对于获取正确数据至关重要。有关更多信息,请阅读我们建议的geo_location参数结构此处 -
parse true将返回解析数据,只要提交的URL是谷歌搜索。 -

- 必要参数

Python代码示例

在此示例中,我们发出请求以检索纽约,美国中关于关键词adidas的谷歌购物搜索结果。

import requests
from pprint import pprint

# Structure payload.
payload = {
    'source': 'google',
    'url': 'https://www.google.com/search?tbm=shop&q=adidas&hl=en',
    'geo_location': 'New York,New York,United States'
}

# Get response.
response = requests.request(
    'POST',
    'https://realtime.oxylabs.io/v1/queries',
    auth=('user', 'pass1'),
    json=payload,
)

# Instead of response with job status and results url, this will return the
# JSON response with results.
pprint(response.json())

其他语言的代码示例可以在这里找到。

购物搜索

google_shopping_search源设计用于检索谷歌购物搜索结果。

查询参数

参数 描述 默认值
source 数据源。更多信息请参阅此处 google_shopping_search
domain 域定位 com
query UTF编码的关键词 -
start_page 起始页码 1
pages 要检索的页数 1
locale Accept-Language头部值,该值更改您的谷歌购物页面Web界面的语言。更多信息 -
results_language 结果语言。支持的谷歌语言列表可以在这里找到。 -
geo_location 结果应适应的地理位置。正确使用此参数对于获取正确数据至关重要。有关更多信息,请阅读我们建议的geo_location参数结构此处 -
user_agent_type 设备类型和浏览器。完整列表可以在这里找到。 桌面
render 启用JavaScript渲染。更多信息请参阅此处 -
callback_url 您的回调端点URL。更多信息请参阅此处 -
parse true将返回解析数据。 -

context:
nfpr

true将关闭自动拼写纠正。 false

context:
sort_by

按给定标准对产品列表进行排序。r应用默认谷歌排序,rv - 按评分排序,p - 按价格升序,pd - 按价格降序 r

context:
min_price

要过滤的产品最低价格 -

context:
max_price

要过滤的产品最高价格 -

- 必要参数

Python代码示例

在此示例中,我们发出请求以检索搜索词adidas的谷歌购物搜索的前4页,按降序价格和最低价格$20排序。

import requests
from pprint import pprint


# Structure payload.
payload = {
    'source': 'google_shopping_search',
    'domain': 'com',
    'query': 'adidas',
    'pages': 4,
    'context': [
        {'key': 'sort_by', 'value': 'pd'},
        {'key': 'min_price', 'value': 20},
    ],
}

# Get response.
response = requests.request(
    'POST',
    'https://realtime.oxylabs.io/v1/queries',
    auth=('user', 'pass1'),
    json=payload,
)

# Print prettified response to stdout.
pprint(response.json())

其他语言的代码示例可以在这里找到。

购物产品

google_shopping_product源设计用于检索指定产品的谷歌购物产品页面。

查询参数

参数 描述 默认值
source 数据源。更多信息请参阅此处 google_shopping_product
domain 域定位 com
query UTF-编码的产品代码 -
locale Accept-Language头部值,该值更改您的谷歌购物页面Web界面的语言。更多信息 -
results_language 结果语言。支持的谷歌语言列表可以在这里找到。 -
geo_location 结果应适应的地理位置。正确使用此参数对于获取正确数据至关重要。有关更多信息,请阅读我们建议的geo_location参数结构此处 -
user_agent_type 设备类型和浏览器。完整列表可以在这里找到。 桌面
render 启用JavaScript渲染。更多信息请参阅此处
callback_url 您回调端点的URL。 更多信息 -
parse true将返回解析数据。 -

- 必要参数

Python代码示例

以下代码示例中,我们向Google Shopping的com域名请求获取产品ID为5007040952399054528的产品页面。

import requests
from pprint import pprint


# Structure payload.
payload = {
    'source': 'google_shopping_product',
    'domain': 'com',
    'query': '5007040952399054528',
}

# Get response.
response = requests.request(
    'POST',
    'https://realtime.oxylabs.io/v1/queries',
    auth=('user', 'pass1'),
    json=payload,
)

# Print prettified response to stdout.
pprint(response.json())

其他语言的代码示例可以在这里找到。

产品定价

google_shopping_pricing源用于检索包含您选择的产品ID的报价列表的页面。

查询参数

参数 描述 默认值
source 数据源。更多信息请参阅此处 google_shopping_pricing
domain 域定位 com
query UTF-编码的产品代码 -
start_page 起始页码 1
pages 要检索的页数 1
locale Accept-Language头部值,该值更改您的谷歌购物页面Web界面的语言。更多信息 -
results_language 结果语言。支持的谷歌语言列表可以在这里找到。 -
geo_location 结果应适应的地理位置。正确使用此参数对于获取正确数据至关重要。有关更多信息,请阅读我们建议的geo_location参数结构此处 -
user_agent_type 设备类型和浏览器。完整列表可以在这里找到。 桌面
render 启用JavaScript渲染。更多信息请参阅此处
callback_url 您的回调端点URL。更多信息请参阅此处 -
parse true将返回解析数据。 -
- 必要参数

Python代码示例

以下代码示例中,我们向Google Shopping的google.com请求获取产品ID为5007040952399054528的产品定价页面。

import requests
from pprint import pprint


# Structure payload.
payload = {
    'source': 'google_shopping_pricing',
    'domain': 'com',
    'query': '5007040952399054528',
}

# Get response.
response = requests.request(
    'POST',
    'https://realtime.oxylabs.io/v1/queries',
    auth=('user', 'pass1'),
    json=payload,
)

# Print prettified response to stdout.
pprint(response.json())

其他语言的代码示例可以在这里找到。

如果您对Google Shopping Scraper或相关功能有任何问题或疑虑,请联系(support@oxylabs.io)或通过我们网站上的在线聊天

项目详情


发布历史 发布通知 | RSS源

下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源分布

google-shopping-scraper-api-0.1.3.tar.gz (6.9 kB 查看哈希值)

上传时间

构建分布

google_shopping_scraper_api-0.1.3-py3-none-any.whl (4.7 kB 查看哈希值)

上传时间 Python 3

由以下机构支持