Scrapy的ItemLoader的基本库
项目描述
itemloaders 是一个库,帮助您从HTML和XML源收集数据。
它非常适合从网页中提取数据,因为它支持使用CSS和XPath选择器进行数据提取。
当您需要标准化来自许多源的数据时特别有用。例如,它允许您将所有铸造和解析规则放在一个地方。
以下是一个示例以帮助您开始
from itemloaders import ItemLoader from parsel import Selector html_data = ''' <!DOCTYPE html> <html> <head> <title>Some random product page</title> </head> <body> <div class="product_name">Some random product page</div> <p id="price">$ 100.12</p> </body> </html> ''' loader = ItemLoader(selector=Selector(html_data)) loader.add_xpath('name', '//div[@class="product_name"]/text()') loader.add_xpath('name', '//div[@class="product_title"]/text()') loader.add_css('price', '#price::text') loader.add_value('last_updated', 'today') # you can also use literal values item = loader.load_item() item # {'name': ['Some random product page'], 'price': ['$ 100.12'], 'last_updated': ['today']}
有关更多信息,请参阅文档。
贡献
所有贡献都受欢迎!
如果您想审查一些代码,请检查这里的开放 Pull Requests
如果您想提交代码更改
如果还没有,请在此处 提交问题
Fork此存储库
创建一个分支以对更改进行工作
运行 pre-commit install 以安装预提交钩子
推送您的本地分支并提交Pull Request
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪一个,请了解更多关于 安装包 的信息。
源代码分发
itemloaders-1.3.2.tar.gz (19.7 kB 查看哈希值)
构建分发
itemloaders-1.3.2-py3-none-any.whl (12.2 kB 查看哈希值)