跳转到主要内容

Python库,用于处理ARC和WARC文件

项目描述

build status

WARC (Web ARChive) 是一种用于存储网络爬取的文件格式。

http://bibnum.bnf.fr/WARC/

这个 warc 库使得处理WARC文件变得非常容易。

import warc
f = warc.open("test.warc")
for record in f:
    print record['WARC-Target-URI'], record['Content-Length']

文档

warc库的文档可在 http://warc.readthedocs.org/ 查找。

许可协议

本软件根据GPL v2许可。有关详细信息,请参阅LICENSE 文件。

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源代码分发

warc-0.2.1.tar.gz (18.4 kB 查看哈希值)

上传时间: 源代码

由以下机构支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面