Google Shopping Scraper可以抓取和解析各种Google Shopping页面类型,以收集结构化电子商务数据。
项目描述
Google Shopping Scraper
作为电子商务Scraper API的一部分,Google Shopping Scraper以原始HTML或结构化JSON格式提取及时电子商务数据。该抓取器提供免维护的数据收集基础设施,自动处理底层过程的绝大部分,从发送HTTP请求到数据解析。
底层措施,如代理,可以显著减少CAPTCHA和IP封禁。抓取器支持来自全球几乎所有地区(195个国家)的本地化结果,具有国家层面和邮政编码定位。
此外,抓取器可以通过调度器自动执行重复抓取和解析任务,加载使用JavaScript进行内容渲染的动态网站,并通过API或直接到Google Cloud Storage或Amazon S3存储桶检索结果。
工作原理
我们可以在Google Shopping上抓取和解析各种页面类型。您可以通过专门构建的数据源(例如搜索、产品、产品定价)提供完整的URL或几个输入参数,我们可以在端形成URL。
概述
以下是我们支持的所有可用数据源
值的快速概述。
源 | 描述 | 结构化数据 |
---|---|---|
谷歌 |
提交您喜欢的任何谷歌购物URL。 | 取决于URL。 |
google_shopping_search |
搜索您选择的搜索词的结果。 | 是。 |
google_shopping_product |
您选择的商品ID的商品页面。 | 是。 |
google_shopping_pricing |
您选择的商品ID可用的报价列表。 | 是。 |
URL
google
源设计用于从各种谷歌购物URL检索内容。您不必发送多个参数并让我们构建和抓取谷歌购物URL,您可以直接提供所需谷歌购物页面的URL。我们不会删除任何参数或以任何其他方式修改您的URL。
此数据源还支持解析数据(JSON格式的结构化数据),只要提交的URL链接到的页面是我们可以解析的页面。
查询参数
参数 | 描述 | 默认值 |
---|---|---|
source |
数据源。更多信息请参阅此处。 | 谷歌 |
url |
指向谷歌页面的直接URL(链接) | - |
user_agent_type |
设备类型和浏览器。完整列表可以在这里找到。 | 桌面 |
render |
启用JavaScript渲染。更多信息请参阅此处。 | |
callback_url |
您的回调端点URL。更多信息请参阅此处。 | - |
geo_location |
结果应适应的地理位置。正确使用此参数对于获取正确数据至关重要。有关更多信息,请阅读我们建议的geo_location 参数结构此处。 |
- |
parse |
true 将返回解析数据,只要提交的URL是谷歌搜索。 |
- |
- 必要参数
Python代码示例
在此示例中,我们发出请求以检索纽约,美国中关于关键词adidas
的谷歌购物搜索结果。
import requests
from pprint import pprint
# Structure payload.
payload = {
'source': 'google',
'url': 'https://www.google.com/search?tbm=shop&q=adidas&hl=en',
'geo_location': 'New York,New York,United States'
}
# Get response.
response = requests.request(
'POST',
'https://realtime.oxylabs.io/v1/queries',
auth=('user', 'pass1'),
json=payload,
)
# Instead of response with job status and results url, this will return the
# JSON response with results.
pprint(response.json())
其他语言的代码示例可以在这里找到。
购物搜索
google_shopping_search
源设计用于检索谷歌购物搜索结果。
查询参数
参数 | 描述 | 默认值 |
---|---|---|
source |
数据源。更多信息请参阅此处。 | google_shopping_search |
domain |
域定位 | com |
query |
UTF编码的关键词 | - |
start_page |
起始页码 | 1 |
pages |
要检索的页数 | 1 |
locale |
Accept-Language 头部值,该值更改您的谷歌购物页面Web界面的语言。更多信息。 |
- |
results_language |
结果语言。支持的谷歌语言列表可以在这里找到。 | - |
geo_location |
结果应适应的地理位置。正确使用此参数对于获取正确数据至关重要。有关更多信息,请阅读我们建议的geo_location 参数结构此处。 |
- |
user_agent_type |
设备类型和浏览器。完整列表可以在这里找到。 | 桌面 |
render |
启用JavaScript渲染。更多信息请参阅此处。 | - |
callback_url |
您的回调端点URL。更多信息请参阅此处。 | - |
parse |
true 将返回解析数据。 |
- |
|
true 将关闭自动拼写纠正。 |
false |
|
按给定标准对产品列表进行排序。r 应用默认谷歌排序,rv - 按评分排序,p - 按价格升序,pd - 按价格降序 |
r |
|
要过滤的产品最低价格 | - |
|
要过滤的产品最高价格 | - |
- 必要参数
Python代码示例
在此示例中,我们发出请求以检索搜索词adidas
的谷歌购物搜索的前4
页,按降序价格和最低价格$20
排序。
import requests
from pprint import pprint
# Structure payload.
payload = {
'source': 'google_shopping_search',
'domain': 'com',
'query': 'adidas',
'pages': 4,
'context': [
{'key': 'sort_by', 'value': 'pd'},
{'key': 'min_price', 'value': 20},
],
}
# Get response.
response = requests.request(
'POST',
'https://realtime.oxylabs.io/v1/queries',
auth=('user', 'pass1'),
json=payload,
)
# Print prettified response to stdout.
pprint(response.json())
其他语言的代码示例可以在这里找到。
购物产品
google_shopping_product
源设计用于检索指定产品的谷歌购物产品页面。
查询参数
参数 | 描述 | 默认值 |
---|---|---|
source |
数据源。更多信息请参阅此处。 | google_shopping_product |
domain |
域定位 | com |
query |
UTF-编码的产品代码 | - |
locale |
Accept-Language 头部值,该值更改您的谷歌购物页面Web界面的语言。更多信息。 |
- |
results_language |
结果语言。支持的谷歌语言列表可以在这里找到。 | - |
geo_location |
结果应适应的地理位置。正确使用此参数对于获取正确数据至关重要。有关更多信息,请阅读我们建议的geo_location 参数结构此处。 |
- |
user_agent_type |
设备类型和浏览器。完整列表可以在这里找到。 | 桌面 |
render |
启用JavaScript渲染。更多信息请参阅此处。 | |
callback_url |
您回调端点的URL。 更多信息。 | - |
parse |
true 将返回解析数据。 |
- |
- 必要参数
Python代码示例
以下代码示例中,我们向Google Shopping的com
域名请求获取产品ID为5007040952399054528
的产品页面。
import requests
from pprint import pprint
# Structure payload.
payload = {
'source': 'google_shopping_product',
'domain': 'com',
'query': '5007040952399054528',
}
# Get response.
response = requests.request(
'POST',
'https://realtime.oxylabs.io/v1/queries',
auth=('user', 'pass1'),
json=payload,
)
# Print prettified response to stdout.
pprint(response.json())
其他语言的代码示例可以在这里找到。
产品定价
google_shopping_pricing
源用于检索包含您选择的产品ID的报价列表的页面。
查询参数
参数 | 描述 | 默认值 |
---|---|---|
source |
数据源。更多信息请参阅此处。 | google_shopping_pricing |
domain |
域定位 | com |
query |
UTF-编码的产品代码 | - |
start_page |
起始页码 | 1 |
pages |
要检索的页数 | 1 |
locale |
Accept-Language 头部值,该值更改您的谷歌购物页面Web界面的语言。更多信息。 |
- |
results_language |
结果语言。支持的谷歌语言列表可以在这里找到。 | - |
geo_location |
结果应适应的地理位置。正确使用此参数对于获取正确数据至关重要。有关更多信息,请阅读我们建议的geo_location 参数结构此处。 |
- |
user_agent_type |
设备类型和浏览器。完整列表可以在这里找到。 | 桌面 |
render |
启用JavaScript渲染。更多信息请参阅此处。 | |
callback_url |
您的回调端点URL。更多信息请参阅此处。 | - |
parse |
true 将返回解析数据。 |
- |
- 必要参数 |
Python代码示例
以下代码示例中,我们向Google Shopping的google.com
请求获取产品ID为5007040952399054528
的产品定价页面。
import requests
from pprint import pprint
# Structure payload.
payload = {
'source': 'google_shopping_pricing',
'domain': 'com',
'query': '5007040952399054528',
}
# Get response.
response = requests.request(
'POST',
'https://realtime.oxylabs.io/v1/queries',
auth=('user', 'pass1'),
json=payload,
)
# Print prettified response to stdout.
pprint(response.json())
其他语言的代码示例可以在这里找到。
如果您对Google Shopping Scraper或相关功能有任何问题或疑虑,请联系(support@oxylabs.io)或通过我们网站上的在线聊天。
项目详情
google-shopping-scraper-api-0.1.3.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | b969d3a86d9834380b5f8d1eb8b1fecce488d7a852e29bd5c256459ee3af387e |
|
MD5 | 2de7ca8402017735cb860fcf7e674a61 |
|
BLAKE2b-256 | 7bf412cc5d2fb34f0c218ca2f3dd9abe227a198a4732aeba282efe0c5b38c5bb |
google_shopping_scraper_api-0.1.3-py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | f376be90cfcf875f22c1e53a7ac17ea7d55fe6d9d5f38ad80d35ad84555ad9d3 |
|
MD5 | 7d27587a930f28b15801abd9e5088e5c |
|
BLAKE2b-256 | 54f570b2f7ea8208b605e6b27b91ce343fccc7e5182bb082f019ede3727ebcc1 |