用于下载、清理、提取和解析内容的简单工具
项目描述
snagit
又一个抓取工具。
snagit 允许您通过运行脚本文件或在交互式REPL中执行来抓取多个页面或文档。例如
$ snagit Type "help" for more information. Ctrl+c to exit > load http://httpbin.org/links/3/{} range='0-2' > print <html><head><title>Links</title></head><body>0 <a href='/links/3/1'>1</a> <a href='/links/3/2'>2</a> </body></html> <html><head><title>Links</title></head><body><a href='/links/3/0'>0</a> 1 <a href='/links/3/2'>2</a> </body></html> <html><head><title>Links</title></head><body><a href='/links/3/0'>0</a> <a href='/links/3/1'>1</a> 2 </body></html> > select a > print <a href="/links/3/1">1</a> <a href="/links/3/2">2</a> <a href="/links/3/0">0</a> <a href="/links/3/2">2</a> <a href="/links/3/0">0</a> <a href="/links/3/1">1</a> > unwrap_attr a href > print /links/3/1 /links/3/2 /links/3/0 /links/3/2 /links/3/0 /links/3/1 > list LOAD 'http://httpbin.org/links/3/{}' range='0-2' PRINT SELECT 'a' PRINT UNWRAP_ATTR 'a' 'href' PRINT
功能
将数据作为文本块、文本行或HTML(使用BeautifulSoup)处理
内置脚本语言
REPL用于命令行交互
需求
Python 3.5+
bs4(BeautifulSoup 4.x)
requests
strutil
cachely
用于测试
pytest
pytest-cov
开发和测试
假设:您已安装pip和virtualenv。
$ virtualenv snagit $ source bin/activate $ git clone https://github.com/dakrauth/snagit.git $ cd snagit $ inv develop $ inv test $ inv cov
项目详情
下载文件
下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于安装软件包的信息。
源分布
snagit-0.3.0.tar.gz (13.3 kB 查看哈希值)
构建分布
snagit-0.3.0-py3-none-any.whl (16.4 kB 查看哈希值)