跳转到主要内容

一个用于编写可维护网络爬虫的现代Python库。

项目描述

概述

spatula是一个用于编写可维护网络爬虫的现代Python库。

来源:https://github.com/jamesturk/spatula

文档:https://jamesturk.github.io/spatula/

问题:https://github.com/jamesturk/spatula/issues

PyPI badge Test badge

功能

  • 面向页面设计:鼓励编写可理解且可维护的爬虫。
  • 不仅限于HTML:提供了内置的处理器,用于常见的数据格式,包括CSV、JSON、XML、PDF和Excel。或者编写自己的。
  • 快速HTML解析:使用lxml.html进行快速、一致和可靠的HTML解析。
  • 灵活的数据模型支持:兼容于dataclassesattrspydantic,或使用自己的数据模型类来存储和验证抓取的数据。
  • CLI工具:提供了一些CLI实用程序,可以帮助简化开发与测试周期。
  • 完全类型化:充分利用Python 3类型注解。

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分发

spatula-0.9.1.tar.gz (14.9 kB 查看哈希值)

上传时间

构建分发

spatula-0.9.1-py3-none-any.whl (16.6 kB 查看哈希值)

上传时间 Python 3

支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面