schul-cloud-url-crawler · PyPI

Shul-Cloud资源爬虫

项目描述

此爬虫从URL抓取资源并将它们发布到服务器。

目的

此爬虫的目的是

我们可以向API提供测试数据。
它可以爬取非活跃且无法发布的资源。
其他爬虫服务可以使用此爬虫上传它们的转换。
它具有完整的爬虫逻辑，但不转换为其他格式。
- 也许我们可以从这个案例中创建推荐或爬虫库。

需求

爬虫应按以下方式工作

提供URL
- 作为命令行参数
- 作为包含每行一个URL的文件的链接
提供资源
- 作为文件中的一个资源
- 作为资源列表

必须调用爬虫以进行爬取。

示例

此示例从URL获取资源并将其发布到API。

python3 -m ressource_url_crawler https://:8080 \
        https://raw.githubusercontent.com/schul-cloud/ressources-api-v1/master/schemas/ressource/examples/valid/example-website.json

认证

您可以指定认证如下

--basic=username:password 用于基本认证
--apikey=apikey 用于API密钥认证

其他需求

爬虫不会重复发布资源。 这可以通过以下方式实现
- 在本地缓存资源，以查看它们是否已更改
  - 比较资源
  - 比较时间戳
- 在发布新资源后从数据库中删除已更新的资源。

这可能需要为爬虫提供某种形式的状态。状态可以添加到资源的X-Ressources-Url-Crawler-Source字段中。这允许本地缓存并需要从数据库中获取对象。

项目详情

发布历史发布通知 | RSS 源

本版本

1.0.17

2017年5月13日

1.0.16

2017年5月13日

1.0.14

2017年5月13日

1.0.13

2017年5月13日

1.0.12

2017年5月12日

1.0.11

2017年5月12日

1.0.10

2017年5月12日

1.0.9

2017年5月11日

1.0.6

2017年5月4日

1.0.5

2017年5月4日

下载文件

下载适合您平台的文件。如果您不确定选择哪个，请了解更多关于安装包的信息。

源代码分发

schul_cloud_url_crawler-1.0.17.tar.gz (14.2 kB 查看哈希值)

上传时间 2017年5月13日 源代码

构建分发

schul_cloud_url_crawler-1.0.17-py3-none-any.whl (20.2 kB 查看哈希值)

上传时间 2017年5月13日 Python 3

schul_cloud_url_crawler-1.0.17.tar.gz 的哈希值

schul_cloud_url_crawler-1.0.17.tar.gz 的哈希值
算法	哈希摘要
SHA256	`cfdc59458d10c3c38aaa1e79288ee935abc5a3ae1e9f05fdb1898514fd538131`
MD5	`806146a56b38dbf3f14115c726c5260c`
BLAKE2b-256	`40ee5161e6791606a2fe6c459a9711dfd3a915f3ecdd72505eaeea8b7635f7a1`

schul_cloud_url_crawler-1.0.17-py3-none-any.whl 的哈希值

schul_cloud_url_crawler-1.0.17-py3-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`b67a81c05bc4b51eba0e5693a52dd0b7672f948d571769d51fda4df0ca6f6f58`
MD5	`338e6f6b272bdae3528e6c5e441b850b`
BLAKE2b-256	`a15eb4c3c51a07c207146695d9f672a2d9d5caf99e4c0b578d73131b8c5e8d02`

schul-cloud-url-crawler 1.0.17

导航

已验证详情

维护者

未验证详情

项目链接

元信息

项目描述

目的

需求

示例

认证

其他需求

项目详情

已验证详情

维护者

未验证详情

项目链接

元信息

发布历史发布通知 | RSS 源

下载文件

源代码分发

构建分发

schul-cloud-url-crawler 1.0.17

导航

已验证详情

维护者

未验证详情

项目链接

元信息

项目描述

目的

需求

示例

认证

其他需求

项目详情

已验证详情

维护者

未验证详情

项目链接

元信息

发布历史 发布通知 | RSS 源

下载文件

源代码分发

构建分发

发布历史发布通知 | RSS 源