跳转到主要内容

基于py3 asyncio的网页抓取框架

项目描述

https://travis-ci.org/lorien/crawler.png?branch=master https://coveralls.io/repos/lorien/crawler/badge.svg?branch=master https://pypip.in/download/crawler/badge.svg?period=month https://pypip.in/version/crawler/badge.svg https://landscape.io/github/lorien/crawler/master/landscape.png

基于py3 asyncio & aiohttp库的网页抓取框架。

使用示例

import re
from itertools import islice

from crawler import Crawler, Request

RE_TITLE = re.compile(r'<title>([^<]+)</title>', re.S | re.I)

class TestCrawler(Crawler):
    def task_generator(self):
        for host in islice(open('var/domains.txt'), 100):
            host = host.strip()
            if host:
                yield Request('http://%s/' % host, tag='page')

    def handler_page(self, req, res):
        print('Result of request to {}'.format(req.url))
        try:
            title = RE_TITLE.search(res.body).group(1)
        except AttributeError:
            title = 'N/A'
        print('Title: {}'.format(title))

bot = TestCrawler(concurrency=10)
bot.run()

安装

pip install crawler

依赖项

  • Python>=3.4

  • aiohttp

项目详情


下载文件

下载适用于您的平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源分布

crawler-0.0.2.tar.gz (6.0 kB 查看哈希值)

上传时间

支持者

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面