跳转到主要内容

Scrapy的ItemLoader的基本库

项目描述

PyPI Version Supported Python Versions CI Status Coverage report Documentation Status

itemloaders 是一个库,帮助您从HTML和XML源收集数据。

它非常适合从网页中提取数据,因为它支持使用CSS和XPath选择器进行数据提取。

当您需要标准化来自许多源的数据时特别有用。例如,它允许您将所有铸造和解析规则放在一个地方。

以下是一个示例以帮助您开始

from itemloaders import ItemLoader
from parsel import Selector

html_data = '''
<!DOCTYPE html>
<html>
    <head>
        <title>Some random product page</title>
    </head>
    <body>
        <div class="product_name">Some random product page</div>
        <p id="price">$ 100.12</p>
    </body>
</html>
'''
loader = ItemLoader(selector=Selector(html_data))
loader.add_xpath('name', '//div[@class="product_name"]/text()')
loader.add_xpath('name', '//div[@class="product_title"]/text()')
loader.add_css('price', '#price::text')
loader.add_value('last_updated', 'today') # you can also use literal values
item = loader.load_item()
item
# {'name': ['Some random product page'], 'price': ['$ 100.12'], 'last_updated': ['today']}

有关更多信息,请参阅文档

贡献

所有贡献都受欢迎!

  • 如果您想审查一些代码,请检查这里的开放 Pull Requests

  • 如果您想提交代码更改

    • 如果还没有,请在此处 提交问题

    • Fork此存储库

    • 创建一个分支以对更改进行工作

    • 运行 pre-commit install 以安装预提交钩子

    • 推送您的本地分支并提交Pull Request

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪一个,请了解更多关于 安装包 的信息。

源代码分发

itemloaders-1.3.2.tar.gz (19.7 kB 查看哈希值)

上传时间 源代码

构建分发

itemloaders-1.3.2-py3-none-any.whl (12.2 kB 查看哈希值)

上传时间 Python 3

由以下机构支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面