免费试用Amazon Scraper API,用于提取搜索、产品、报价列表、评论、问答、畅销书和卖家数据。
项目描述
Amazon Scraper
Oxylabs的Amazon Scraper API允许用户轻松地从Amazon上的任何页面抓取公开可用的数据,例如评论、定价、产品信息等。如果您想尝试这个强大的工具,您可以在Oxylabs网站上免费试用。
概述
以下是使用Amazon支持的所有数据source
值的快速概述。
源 | 描述 | 结构化数据 |
---|---|---|
amazon |
提交您喜欢的任何Amazon URL。 | 取决于URL。 |
amazon_bestsellers |
您选择的分类节点中的畅销商品列表。 | 是 |
amazon_pricing |
您选择的ASIN可用的报价列表。 | 是。 |
amazon_product |
您选择的ASIN的产品页面。 | 是。 |
amazon_questions |
您选择的ASIN的问答页面。 | 是。 |
amazon_reviews |
您选择的ASIN的评论页面。 | 是。 |
amazon_search |
您选择的搜索词的搜索结果。 | 是。 |
amazon_sellers |
您选择的卖家的卖家信息。 | 是。 |
URL
amazon
源旨在从各种Amazon URL检索内容。您无需发送多个参数,可以直接提供所需的Amazon页面URL。我们不会删除任何参数或以任何方式更改您的URL。
查询参数
参数 | 描述 | 默认值 |
---|---|---|
source |
数据源。更多详情请访问这里。 | 不适用 |
url |
直接链接到Amazon页面 | - |
user_agent_type |
设备和浏览器类型。完整列表请访问这里。 | desktop |
render |
启用JavaScript渲染。更多详情请访问这里。 | - |
callback_url |
您的回调端点URL。更多详情请访问这里。 | - |
parse |
true 将返回结构化数据,前提是提交的URL是我们能够解析的页面类型之一。 |
false |
- 必要参数
Python代码示例
以下代码示例中,我们发出请求以检索ASIN为B0BDJ279KF
的Amazon产品页面。
import requests
from pprint import pprint
# Structure payload.
payload = {
'source': 'amazon',
'url': 'https://www.amazon.co.uk/dp/B0BDJ279KF',
'parse': True
}
# Get response.
response = requests.request(
'POST',
'https://realtime.oxylabs.io/v1/queries',
auth=('YOUR_USERNAME', 'YOUR_PASSWORD'), #Your credentials go here
json=payload,
)
# Instead of response with job status and results url, this will return the
# JSON response with results.
pprint(response.json())
要查看检索数据的响应示例,请下载此 示例输出(JSON格式)。
搜索
amazon_search
源旨在检索Amazon搜索结果页面。
查询参数
参数 | 描述 | 默认值 |
---|---|---|
source |
数据源。更多详情请访问这里。 | amazon_search |
domain |
Amazon的域名本地化。完整列表请访问这里。 | com |
query |
UTF编码的关键词 | - |
start_page |
起始页面编号 | 1 |
pages |
要检索的页面数量 | 1 |
geo_location |
《送达至》位置。有关使用此参数的指南请访问这里。 | - |
user_agent_type |
设备和浏览器类型。完整列表请访问这里。 | desktop |
render |
启用JavaScript渲染。更多详情请访问这里。 | - |
callback_url |
您的回调端点URL。更多详情请访问这里。 | - |
parse |
true 将返回结构化数据。 |
- |
|
在特定的浏览节点(产品类别)中搜索项目。 | - |
|
搜索特定卖家销售的项目。 | - |
- 必要参数
Python代码示例
以下代码示例中,我们发出请求以检索在amazon.nl
市场上ASIN为3AA17D2BRD4YMT0X
的产品页面。如果提供的ASIN是父ASIN,我们将要求Amazon返回自动选择的变体的产品页面。
import requests
from pprint import pprint
# Structure payload.
payload = {
'source': 'amazon_search',
'domain': 'nl',
'query': 'adidas',
'start_page': 11,
'pages': 10,
'parse': True,
'context': [
{'key': 'category_id', 'value': 16391843031},
{'key': 'merchant_id', 'value':'3AA17D2BRD4YMT0X'}
],
}
# Get response.
response = requests.request(
'POST',
'https://realtime.oxylabs.io/v1/queries',
auth=('user', 'pass1'),
json=payload,
)
# Print prettified response to stdout.
pprint(response.json())
要查看检索数据的响应示例,请下载此 示例输出文件(JSON格式)。
产品
amazon_product
数据源旨在检索Amazon产品页面。
查询参数
参数 | 描述 | 默认值 |
---|---|---|
source |
数据源。更多详情请访问这里。 | amazon_product |
domain |
Amazon的域名本地化。完整列表请访问这里。 | com |
query |
10位ASIN代码 | - |
geo_location |
《送达至》位置。有关使用此参数的指南请访问这里。 | - |
user_agent_type |
设备和浏览器类型。完整列表请访问这里。 | desktop |
render |
启用JavaScript渲染。更多详情请访问这里。 | |
callback_url |
您的回调端点URL。更多详情请访问这里。 | - |
parse |
true 将返回结构化数据。 |
- |
|
为了获取准确的定价/购买框数据,将此参数设置为true (这将告诉我们向产品URL末尾追加th=1&psc=1 URL参数)。为了准确地表示父ASIN的产品页面,省略此参数或将其设置为false 。 |
false |
- 必要参数
Python代码示例
以下代码示例中,我们向amazon.nl
市场请求获取ASIN为B09RX4KS1G
的产品页面。如果提供的ASIN是父ASIN,我们要求亚马逊返回一个自动选择的变体产品页面。
import requests
from pprint import pprint
# Structure payload.
payload = {
'source': 'amazon_product',
'domain': 'nl',
'query': 'B09RX4KS1G',
'parse': True,
'context': [
{
'key': 'autoselect_variant', 'value': True
}],
}
# Get response.
response = requests.request(
'POST',
'https://realtime.oxylabs.io/v1/queries',
auth=('user', 'pass1'),
json=payload,
)
# Print prettified response to stdout.
pprint(response.json())
要查看获取数据的响应示例,请下载此示例输出文件(JSON格式)。
商品列表
amazon_pricing
数据源旨在检索亚马逊产品列表。
查询参数
参数 | 描述 | 默认值 |
---|---|---|
source |
数据源。更多详情请访问这里。 | amazon_pricing |
domain |
Amazon的域名本地化。完整列表请访问这里。 | com |
query |
10位ASIN代码 | - |
start_page |
起始页面编号 | 1 |
pages |
要检索的页面数量 | 1 |
geo_location |
“送货至”位置。有关使用此参数的指南,请参阅此处。 | - |
user_agent_type |
设备和浏览器类型。完整列表请访问这里。 | desktop |
render |
启用JavaScript渲染。更多详情请访问这里。 | |
callback_url |
您的回调端点URL。更多详情请访问这里。 | - |
parse |
true 将返回结构化数据。 |
- |
- 必要参数
Python代码示例
以下代码示例中,我们向amazon.nl
市场请求获取ASIN为B09RX4KS1G
的产品列表页面。
import requests
from pprint import pprint
# Structure payload.
payload = {
'source': 'amazon_pricing',
'domain': 'nl',
'query': 'B09RX4KS1G',
'parse': True,
}
# Get response.
response = requests.request(
'POST',
'https://realtime.oxylabs.io/v1/queries',
auth=('user', 'pass1'),
json=payload,
)
# Print prettified response to stdout.
pprint(response.json())
要查看解析后的输出示例,请下载此JSON文件。
评论
amazon_reviews
数据源旨在检索您选择的ASIN的亚马逊产品评论页面。
查询参数
参数 | 描述 | 默认值 |
---|---|---|
source |
数据源。更多详情请访问这里。 | amazon_reviews |
domain |
Amazon的域名本地化。完整列表请访问这里。 | com |
query |
10位ASIN代码 | - |
geo_location |
“送货至”位置。有关使用此参数的指南,请参阅此处。 | - |
user_agent_type |
设备和浏览器类型。完整列表请访问这里。 | desktop |
start_page |
起始页面编号 | 1 |
pages |
要检索的页面数量 | 1 |
render |
启用JavaScript渲染。更多详情请访问这里。 | |
callback_url |
您的回调端点URL。更多详情请访问这里。 | - |
parse |
true 将返回结构化数据。 |
- |
- 必要参数
Python代码示例
import requests
from pprint import pprint
# Structure payload.
payload = {
'source': 'amazon_reviews',
'domain': 'nl',
'query': 'B09RX4KS1G',
'parse': True,
}
# Get response.
response = requests.request(
'POST',
'https://realtime.oxylabs.io/v1/queries',
auth=('user', 'pass1'),
json=payload,
)
# Print prettified response to stdout.
pprint(response.json())
要查看获取数据的响应示例,请下载此示例输出文件(JSON格式)。
问答
amazon_questions
数据源旨在检索任何特定产品的问答页面。
查询参数
参数 | 描述 | 默认值 |
---|---|---|
source |
数据源。更多详情请访问这里。 | amazon_questions |
domain |
Amazon的域名本地化。完整列表请访问这里。 | com |
query |
10位ASIN代码 | - |
geo_location |
“送货至”位置。有关使用此参数的指南,请参阅此处。 | - |
user_agent_type |
设备和浏览器类型。完整列表请访问这里。 | desktop |
render |
启用JavaScript渲染。有关更多信息,请参阅此处。 | |
callback_url |
您的回调端点URL。更多详情请访问这里。 | - |
parse |
true 将返回结构化数据。 |
- |
- 必要参数
Python代码示例
import requests
from pprint import pprint
# Structure payload.
payload = {
'source': 'amazon_questions',
'domain': 'nl',
'query': 'B09RX4KS1G',
'parse': True,
}
# Get response.
response = requests.request(
'POST',
'https://realtime.oxylabs.io/v1/queries',
auth=('user', 'pass1'),
json=payload,
)
# Print prettified response to stdout.
pprint(response.json())
要查看获取数据的响应示例,请下载此示例输出文件(JSON格式)。
畅销商品
amazon_bestsellers
数据源旨在检索亚马逊畅销商品页面。
查询参数
参数 | 描述 | 默认值 |
---|---|---|
source |
数据源。更多详情请访问这里。 | amazon_bestsellers |
domain |
Amazon的域名本地化。完整列表请访问这里。 | com |
query |
部门名称。例如:服装,鞋类和珠宝 |
- |
start_page |
起始页面编号 | 1 |
pages |
要检索的页面数量 | 1 |
geo_location |
“送货至”位置。有关使用此参数的指南,请参阅此处。 | - |
user_agent_type |
设备和浏览器类型。完整列表请访问这里。 | desktop |
render |
启用JavaScript渲染。更多详情请访问这里。 | |
callback_url |
您的回调端点URL。更多详情请访问这里。 | - |
parse |
true 将返回结构化数据。 |
- |
|
在特定的浏览节点(产品类别)中搜索项目。 | - |
- 必要参数
Python代码示例
import requests
from pprint import pprint
# Structure payload.
payload = {
'source': 'amazon_bestsellers',
'domain': 'de',
'query': 'automotive',
'start_page': 2,
'parse': True,
'context': [
{'key': 'category_id', 'value': 82400031},
],
}
# Get response.
response = requests.request(
'POST',
'https://realtime.oxylabs.io/v1/queries',
auth=('user', 'pass1'),
json=payload,
)
# Print prettified response to stdout.
pprint(response.json())
要查看获取数据的响应示例,请下载此示例输出文件(JSON格式)。
卖家
amazon_sellers
数据源旨在检索亚马逊卖家页面。
查询参数
参数 | 描述 | 默认值 |
---|---|---|
source |
数据源。更多详情请访问这里。 | amazon_sellers |
domain |
Amazon的域名本地化。完整列表请访问这里。 | com |
query |
13位卖家ID | - |
geo_location |
“送货至”位置。有关使用此参数的指南,请参阅此处。 | - |
user_agent_type |
设备和浏览器类型。完整列表请访问这里。 | desktop |
render |
启用JavaScript渲染。更多详情请访问这里。 | |
callback_url |
您的回调端点URL。更多详情请访问这里。 | - |
parse |
true 将返回结构化数据。请注意,目前我们仅支持对desktop 设备类型的解析输出。然而,没有明显的原因需要以其他设备类型获取卖家页面,因为卖家数据将在所有设备上完全相同。 |
- |
- 必要参数
Python代码示例
以下代码示例中,我们向amazon.de
市场请求获取卖家ID为ABNP0A7Y0QWBN
的卖家页面。
import requests
from pprint import pprint
# Structure payload.
payload = {
'source': 'amazon_sellers',
'domain': 'de',
'query': 'ABNP0A7Y0QWBN',
'parse': True
}
# Get response.
response = requests.request(
'POST',
'https://realtime.oxylabs.io/v1/queries',
auth=('user', 'pass1'),
json=payload,
)
# Print prettified response to stdout.
pprint(response.json())
项目详情
下载文件
下载适合您平台的文件。如果您不确定要选择哪个,请了解更多关于安装软件包的信息。