跳转到主要内容

用于下载、清理、提取和解析内容的简单工具

项目描述

https://travis-ci.org/dakrauth/snagit.svg?branch=master

snagit

又一个抓取工具。

snagit 允许您通过运行脚本文件或在交互式REPL中执行来抓取多个页面或文档。例如

$ snagit
Type "help" for more information. Ctrl+c to exit
> load http://httpbin.org/links/3/{} range='0-2'
> print
<html><head><title>Links</title></head><body>0 <a href='/links/3/1'>1</a> <a href='/links/3/2'>2</a> </body></html>
<html><head><title>Links</title></head><body><a href='/links/3/0'>0</a> 1 <a href='/links/3/2'>2</a> </body></html>
<html><head><title>Links</title></head><body><a href='/links/3/0'>0</a> <a href='/links/3/1'>1</a> 2 </body></html>
> select a
> print
<a href="/links/3/1">1</a>
<a href="/links/3/2">2</a>
<a href="/links/3/0">0</a>
<a href="/links/3/2">2</a>
<a href="/links/3/0">0</a>
<a href="/links/3/1">1</a>
> unwrap_attr a href
> print
/links/3/1
/links/3/2
/links/3/0
/links/3/2
/links/3/0
/links/3/1
> list
LOAD 'http://httpbin.org/links/3/{}' range='0-2'
PRINT
SELECT 'a'
PRINT
UNWRAP_ATTR 'a' 'href'
PRINT

功能

  • 将数据作为文本块、文本行或HTML(使用BeautifulSoup)处理

  • 内置脚本语言

  • REPL用于命令行交互

需求

  • Python 3.5+

  • bs4(BeautifulSoup 4.x)

  • requests

  • strutil

  • cachely

用于测试

  • pytest

  • pytest-cov

开发和测试

假设:您已安装pipvirtualenv

$ virtualenv snagit
$ source bin/activate
$ git clone https://github.com/dakrauth/snagit.git
$ cd snagit
$ inv develop
$ inv test
$ inv cov

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于安装软件包的信息。

源分布

snagit-0.3.0.tar.gz (13.3 kB 查看哈希值

上传时间:

构建分布

snagit-0.3.0-py3-none-any.whl (16.4 kB 查看哈希值

上传时间: Python 3

由...