Shul-Cloud资源爬虫
项目描述
此爬虫从URL抓取资源并将它们发布到服务器。
目的
此爬虫的目的是
我们可以向API提供测试数据。
它可以爬取非活跃且无法发布的资源。
其他爬虫服务可以使用此爬虫上传它们的转换。
它具有完整的爬虫逻辑,但不转换为其他格式。
也许我们可以从这个案例中创建推荐或爬虫库。
需求
爬虫应按以下方式工作
提供URL
作为命令行参数
作为包含每行一个URL的文件的链接
提供资源
作为文件中的一个资源
作为资源列表
必须调用爬虫以进行爬取。
示例
此示例从URL获取资源并将其发布到API。
python3 -m ressource_url_crawler http://localhost:8080 \
https://raw.githubusercontent.com/schul-cloud/ressources-api-v1/master/schemas/ressource/examples/valid/example-website.json
认证
您可以指定认证如下
--basic=username:password 用于基本认证
--apikey=apikey 用于API密钥认证
其他需求
爬虫不会重复发布资源。 这可以通过以下方式实现
在本地缓存资源,以查看它们是否已更改
比较资源
比较时间戳
在发布新资源后从数据库中删除已更新的资源。
这可能需要为爬虫提供某种形式的状态。状态可以添加到资源的X-Ressources-Url-Crawler-Source字段中。这允许本地缓存并需要从数据库中获取对象。
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。
源代码分发
schul_cloud_url_crawler-1.0.17.tar.gz (14.2 kB 查看哈希值)
构建分发
关闭
schul_cloud_url_crawler-1.0.17.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | cfdc59458d10c3c38aaa1e79288ee935abc5a3ae1e9f05fdb1898514fd538131 |
|
MD5 | 806146a56b38dbf3f14115c726c5260c |
|
BLAKE2b-256 | 40ee5161e6791606a2fe6c459a9711dfd3a915f3ecdd72505eaeea8b7635f7a1 |
关闭
schul_cloud_url_crawler-1.0.17-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | b67a81c05bc4b51eba0e5693a52dd0b7672f948d571769d51fda4df0ca6f6f58 |
|
MD5 | 338e6f6b272bdae3528e6c5e441b850b |
|
BLAKE2b-256 | a15eb4c3c51a07c207146695d9f672a2d9d5caf99e4c0b578d73131b8c5e8d02 |