跳转到主要内容

免费试用Amazon Scraper API,用于提取搜索、产品、报价列表、评论、问答、畅销书和卖家数据。

项目描述

Amazon Scraper

Amazon_scraper (1)

Oxylabs的Amazon Scraper API允许用户轻松地从Amazon上的任何页面抓取公开可用的数据,例如评论、定价、产品信息等。如果您想尝试这个强大的工具,您可以在Oxylabs网站上免费试用。

概述

以下是使用Amazon支持的所有数据source值的快速概述。

描述 结构化数据
amazon 提交您喜欢的任何Amazon URL。 取决于URL。
amazon_bestsellers 您选择的分类节点中的畅销商品列表。
amazon_pricing 您选择的ASIN可用的报价列表。 是。
amazon_product 您选择的ASIN的产品页面。 是。
amazon_questions 您选择的ASIN的问答页面。 是。
amazon_reviews 您选择的ASIN的评论页面。 是。
amazon_search 您选择的搜索词的搜索结果。 是。
amazon_sellers 您选择的卖家的卖家信息。 是。

URL

amazon源旨在从各种Amazon URL检索内容。您无需发送多个参数,可以直接提供所需的Amazon页面URL。我们不会删除任何参数或以任何方式更改您的URL。

查询参数

参数 描述 默认值
source 数据源。更多详情请访问这里 不适用
url 直接链接到Amazon页面 -
user_agent_type 设备和浏览器类型。完整列表请访问这里 desktop
render 启用JavaScript渲染。更多详情请访问这里 -
callback_url 您的回调端点URL。更多详情请访问这里 -
parse true将返回结构化数据,前提是提交的URL是我们能够解析的页面类型之一。 false

- 必要参数

Python代码示例

以下代码示例中,我们发出请求以检索ASIN为B0BDJ279KF的Amazon产品页面。

import requests
from pprint import pprint


# Structure payload.
payload = {
    'source': 'amazon',
    'url': 'https://www.amazon.co.uk/dp/B0BDJ279KF',
    'parse': True
}

# Get response.
response = requests.request(
    'POST',
    'https://realtime.oxylabs.io/v1/queries',
    auth=('YOUR_USERNAME', 'YOUR_PASSWORD'), #Your credentials go here
    json=payload,
)

# Instead of response with job status and results url, this will return the
# JSON response with results.
pprint(response.json())

要查看检索数据的响应示例,请下载 示例输出(JSON格式)。

搜索

amazon_search源旨在检索Amazon搜索结果页面。

查询参数

参数 描述 默认值
source 数据源。更多详情请访问这里 amazon_search
domain Amazon的域名本地化。完整列表请访问这里 com
query UTF编码的关键词 -
start_page 起始页面编号 1
pages 要检索的页面数量 1
geo_location 《送达至》位置。有关使用此参数的指南请访问这里 -
user_agent_type 设备和浏览器类型。完整列表请访问这里 desktop
render 启用JavaScript渲染。更多详情请访问这里 -
callback_url 您的回调端点URL。更多详情请访问这里 -
parse true将返回结构化数据。 -

context:
category_id

在特定的浏览节点(产品类别)中搜索项目。 -

context:
merchant_id

搜索特定卖家销售的项目。 -

- 必要参数

Python代码示例

以下代码示例中,我们发出请求以检索在amazon.nl市场上ASIN为3AA17D2BRD4YMT0X的产品页面。如果提供的ASIN是父ASIN,我们将要求Amazon返回自动选择的变体的产品页面。

import requests
from pprint import pprint


# Structure payload.
payload = {
    'source': 'amazon_search',
    'domain': 'nl',
    'query': 'adidas',
    'start_page': 11,
    'pages': 10,
    'parse': True,
    'context': [
        {'key': 'category_id', 'value': 16391843031},
        {'key': 'merchant_id', 'value':'3AA17D2BRD4YMT0X'}
    ],
}


# Get response.
response = requests.request(
    'POST',
    'https://realtime.oxylabs.io/v1/queries',
    auth=('user', 'pass1'),
    json=payload,
)

# Print prettified response to stdout.
pprint(response.json())

要查看检索数据的响应示例,请下载 示例输出文件(JSON格式)。

产品

amazon_product数据源旨在检索Amazon产品页面。

查询参数

参数 描述 默认值
source 数据源。更多详情请访问这里 amazon_product
domain Amazon的域名本地化。完整列表请访问这里 com
query 10位ASIN代码 -
geo_location 《送达至》位置。有关使用此参数的指南请访问这里 -
user_agent_type 设备和浏览器类型。完整列表请访问这里 desktop
render 启用JavaScript渲染。更多详情请访问这里
callback_url 您的回调端点URL。更多详情请访问这里 -
parse true将返回结构化数据。 -

context:
autoselect_variant

为了获取准确的定价/购买框数据,将此参数设置为true(这将告诉我们向产品URL末尾追加th=1&psc=1 URL参数)。为了准确地表示父ASIN的产品页面,省略此参数或将其设置为false false

- 必要参数

Python代码示例

以下代码示例中,我们向amazon.nl市场请求获取ASIN为B09RX4KS1G的产品页面。如果提供的ASIN是父ASIN,我们要求亚马逊返回一个自动选择的变体产品页面。

import requests
from pprint import pprint


# Structure payload.
payload = {
    'source': 'amazon_product',
    'domain': 'nl',
    'query': 'B09RX4KS1G',
    'parse': True,
    'context': [
    {
      'key': 'autoselect_variant', 'value': True
    }],
}


# Get response.
response = requests.request(
    'POST',
    'https://realtime.oxylabs.io/v1/queries',
    auth=('user', 'pass1'),
    json=payload,
)

# Print prettified response to stdout.
pprint(response.json())

要查看获取数据的响应示例,请下载此示例输出文件(JSON格式)。

商品列表

amazon_pricing数据源旨在检索亚马逊产品列表。

查询参数

参数 描述 默认值
source 数据源。更多详情请访问这里 amazon_pricing
domain Amazon的域名本地化。完整列表请访问这里 com
query 10位ASIN代码 -
start_page 起始页面编号 1
pages 要检索的页面数量 1
geo_location “送货至”位置。有关使用此参数的指南,请参阅此处 -
user_agent_type 设备和浏览器类型。完整列表请访问这里 desktop
render 启用JavaScript渲染。更多详情请访问这里
callback_url 您的回调端点URL。更多详情请访问这里 -
parse true将返回结构化数据。 -

- 必要参数

Python代码示例

以下代码示例中,我们向amazon.nl市场请求获取ASIN为B09RX4KS1G的产品列表页面。

import requests
from pprint import pprint


# Structure payload.
payload = {
    'source': 'amazon_pricing',
    'domain': 'nl',
    'query': 'B09RX4KS1G',
    'parse': True,
}


# Get response.
response = requests.request(
    'POST',
    'https://realtime.oxylabs.io/v1/queries',
    auth=('user', 'pass1'),
    json=payload,
)

# Print prettified response to stdout.
pprint(response.json())

要查看解析后的输出示例,请下载此JSON文件

评论

amazon_reviews数据源旨在检索您选择的ASIN的亚马逊产品评论页面。

查询参数

参数 描述 默认值
source 数据源。更多详情请访问这里 amazon_reviews
domain Amazon的域名本地化。完整列表请访问这里 com
query 10位ASIN代码 -
geo_location “送货至”位置。有关使用此参数的指南,请参阅此处 -
user_agent_type 设备和浏览器类型。完整列表请访问这里 desktop
start_page 起始页面编号 1
pages 要检索的页面数量 1
render 启用JavaScript渲染。更多详情请访问这里
callback_url 您的回调端点URL。更多详情请访问这里 -
parse true将返回结构化数据。 -

- 必要参数

Python代码示例

import requests
from pprint import pprint


# Structure payload.
payload = {
    'source': 'amazon_reviews',
    'domain': 'nl',
    'query': 'B09RX4KS1G',
    'parse': True,
}


# Get response.
response = requests.request(
    'POST',
    'https://realtime.oxylabs.io/v1/queries',
    auth=('user', 'pass1'),
    json=payload,
)

# Print prettified response to stdout.
pprint(response.json())

要查看获取数据的响应示例,请下载此示例输出文件(JSON格式)。

问答

amazon_questions数据源旨在检索任何特定产品的问答页面。

查询参数

参数 描述 默认值
source 数据源。更多详情请访问这里 amazon_questions
domain Amazon的域名本地化。完整列表请访问这里 com
query 10位ASIN代码 -
geo_location “送货至”位置。有关使用此参数的指南,请参阅此处 -
user_agent_type 设备和浏览器类型。完整列表请访问这里 desktop
render 启用JavaScript渲染。有关更多信息,请参阅此处
callback_url 您的回调端点URL。更多详情请访问这里 -
parse true将返回结构化数据。 -

- 必要参数

Python代码示例

import requests
from pprint import pprint


# Structure payload.
payload = {
    'source': 'amazon_questions',
    'domain': 'nl',
    'query': 'B09RX4KS1G',
    'parse': True,
}


# Get response.
response = requests.request(
    'POST',
    'https://realtime.oxylabs.io/v1/queries',
    auth=('user', 'pass1'),
    json=payload,
)

# Print prettified response to stdout.
pprint(response.json())

要查看获取数据的响应示例,请下载此示例输出文件(JSON格式)。

畅销商品

amazon_bestsellers数据源旨在检索亚马逊畅销商品页面。

查询参数

参数 描述 默认值
source 数据源。更多详情请访问这里 amazon_bestsellers
domain Amazon的域名本地化。完整列表请访问这里 com
query 部门名称。例如:服装,鞋类和珠宝 -
start_page 起始页面编号 1
pages 要检索的页面数量 1
geo_location “送货至”位置。有关使用此参数的指南,请参阅此处 -
user_agent_type 设备和浏览器类型。完整列表请访问这里 desktop
render 启用JavaScript渲染。更多详情请访问这里
callback_url 您的回调端点URL。更多详情请访问这里 -
parse true将返回结构化数据。 -

context:
category_id

在特定的浏览节点(产品类别)中搜索项目。 -

- 必要参数

Python代码示例

import requests
from pprint import pprint


# Structure payload.
payload = {
    'source': 'amazon_bestsellers',
    'domain': 'de',
    'query': 'automotive',
    'start_page': 2,
    'parse': True,
    'context': [
        {'key': 'category_id', 'value': 82400031},
    ],
}


# Get response.
response = requests.request(
    'POST',
    'https://realtime.oxylabs.io/v1/queries',
    auth=('user', 'pass1'),
    json=payload,
)

# Print prettified response to stdout.
pprint(response.json())

要查看获取数据的响应示例,请下载此示例输出文件(JSON格式)。

卖家

amazon_sellers数据源旨在检索亚马逊卖家页面。

查询参数

参数 描述 默认值
source 数据源。更多详情请访问这里 amazon_sellers
domain Amazon的域名本地化。完整列表请访问这里 com
query 13位卖家ID -
geo_location “送货至”位置。有关使用此参数的指南,请参阅此处 -
user_agent_type 设备和浏览器类型。完整列表请访问这里 desktop
render 启用JavaScript渲染。更多详情请访问这里
callback_url 您的回调端点URL。更多详情请访问这里 -
parse true将返回结构化数据。请注意,目前我们仅支持对desktop设备类型的解析输出。然而,没有明显的原因需要以其他设备类型获取卖家页面,因为卖家数据将在所有设备上完全相同。 -

- 必要参数

Python代码示例

以下代码示例中,我们向amazon.de市场请求获取卖家ID为ABNP0A7Y0QWBN的卖家页面。

import requests
from pprint import pprint


# Structure payload.
payload = {
    'source': 'amazon_sellers',
    'domain': 'de',
    'query': 'ABNP0A7Y0QWBN',
    'parse': True
}


# Get response.
response = requests.request(
    'POST',
    'https://realtime.oxylabs.io/v1/queries',
    auth=('user', 'pass1'),
    json=payload,
)

# Print prettified response to stdout.
pprint(response.json())

项目详情


下载文件

下载适合您平台的文件。如果您不确定要选择哪个,请了解更多关于安装软件包的信息。

源分布

amazon-scraper-api-0.1.0.tar.gz (11.2 kB 查看哈希值)

构建分布

amazon_scraper_api-0.1.0-py3-none-any.whl (5.3 kB 查看哈希值)

上传于 Python 3

由以下提供支持

AWSAWS云计算和安全赞助商DatadogDatadog监控FastlyFastlyCDNGoogleGoogle下载分析MicrosoftMicrosoftPSF赞助商PingdomPingdom监控SentrySentry错误日志StatusPageStatusPage状态页面