Python库,用于处理ARC和WARC文件
项目描述
WARC (Web ARChive) 是一种用于存储网络爬取的文件格式。
这个 warc 库使得处理WARC文件变得非常容易。
import warc f = warc.open("test.warc") for record in f: print record['WARC-Target-URI'], record['Content-Length']
文档
warc库的文档可在 http://warc.readthedocs.org/ 查找。
许可协议
本软件根据GPL v2许可。有关详细信息,请参阅LICENSE 文件。
项目详情
关闭
warc-0.2.1.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 65ec3336287ae7a17c969736935ba188678df10f2ec813d8e3474cc51bb71d39 |
|
MD5 | 3235a8b68e28c77d45227b2850654776 |
|
BLAKE2b-256 | 9ab430d87239ec30cd0c504bd7dec9cd22b51ef0cbb00d6fbbc138b1ddcfc108 |