将Scrapy爬虫放在HTTP API后面
项目描述
ScrapyRT (Scrapy实时)
在几分钟内为您的Scrapy项目添加HTTP API。
您向ScrapyRT发送带有蜘蛛名称和URL的请求,然后作为响应,您将获得访问此URL的蜘蛛收集的项目。
所有Scrapy项目组件(例如中间件、管道、扩展)都受支持
您在Scrapy项目目录中运行Scrapyrt。它启动HTTP服务器,允许您安排蜘蛛并以JSON格式获取蜘蛛输出。
快速入门
1. 安装
> pip install scrapyrt
2. 切换到Scrapy项目(例如quotesbot项目)
> cd my/project_path/is/quotesbot
3. 启动ScrapyRT
> scrapyrt
4. 运行您的蜘蛛
> curl "localhost:9080/crawl.json?spider_name=toscrape-css&url=http://quotes.toscrape.com/"
5. 运行更复杂的查询,例如指定Scrapy请求的回调和蜘蛛的邮编参数
> curl --data '{"request": {"url": "http://quotes.toscrape.com/page/2/", "callback":"some_callback"}, "spider_name": "toscrape-css", "crawl_args": {"zipcode":"14000"}}' http://localhost:9080/crawl.json -v
Scrapyrt将查找scrapy.cfg文件以确定您的项目设置,并且如果找不到将引发错误。请注意,您需要安装所有项目依赖项。
注意
本项目不是Scrapyd(https://scrapyd.readthedocs.io/en/stable/)或Scrapy Cloud(https://www.zyte.com/scrapy-cloud/)或其他用于运行长时间爬取的基础设施的替代品。
不适合长时间运行的爬虫,适合那些从某个网站获取一个响应并快速返回物品的爬虫。
文档
支持
开源支持在Github上提供。请创建一个问题(即带有“问题”标签的问题)。
商业支持也由Zyte提供。
许可证
ScrapyRT在BSD 3-Clause许可证下提供。
开发
开发在Github上进行。
关闭
scrapyrt-0.16.0.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 753ef3645444dba71d0f0a7b5a7707e52e1ae4b6088ac02d81611015dd55a63d |
|
MD5 | 0065b7c51023f6b175444a8d6a04895e |
|
BLAKE2b-256 | 8bf963cbe0aeb83619fee0dd913bc5b2e660f99f5a608a6ba181adf386540573 |
关闭
scrapyrt-0.16.0-py2.py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 8d6be014746f5e201d645ee8b9c8415b7ff9bd71d834ebb5a81084cc3d2d6752 |
|
MD5 | 7330f941ea1707656c8759dba34e385f |
|
BLAKE2b-256 | ea9fdf4dcc9c914edf64f52c84aed86afb3424c0637572c1d773fa2a6fe42cbf |