transmogrify.webcrawler

抓取HTML内容并将其馈送到transmogrifier管道

这些详情尚未由PyPI 验证

项目链接

主页

项目描述

抓取 - html到导入

transmogrify.webcrawler 将抓取HTML以提取页面和文件，作为您的transmogrifier管道的源。 transmogrify.webcrawler.typerecognitor 有助于根据抓取的mimetype设置‘_type’。 transmogrify.webcrawler.cache 通过本地存储项来加速抓取并减少内存使用。

这些蓝图设计用于与 funnelweb 管道一起使用，但也可以独立使用。

一个从网站或本地HTML文件抓取内容的源蓝图。

Webcrawler可以从实时网站、磁盘上的文件夹或磁盘上的文件夹导入HTML，该文件夹包含从实时网站保存的HTML，并且可能仍然包含指向该网站的绝对链接。

要抓取实时网站，向爬虫提供要开始抓取的基http url。此url必须是所有其他您希望从网站获取的url的起始url。

例如

[crawler]
blueprint = transmogrify.webcrawler
url  = http://www.whitehouse.gov
max = 50

将限制爬虫抓取前50页。

您也可以通过仅使用文件:风格url来抓取具有相对链接的本地HTML目录

[crawler]
blueprint = transmogrify.webcrawler
url = file:///mydirectory

或如果本地目录包含从网站保存的HTML，并且可能包含绝对url，则可以将其设置为缓存。爬虫将始终首先查找缓存

[crawler]
blueprint = transmogrify.webcrawler
url = http://therealsite.com --crawler:cache=mydirectory

以下将不会抓取大于4Mb的内容

[crawler]
blueprint = transmogrify.webcrawler
url  = http://www.whitehouse.gov
maxsize=400000

要跳过正则表达式抓取的链接

[crawler]
blueprint = transmogrify.webcrawler
url=http://www.whitehouse.gov
ignore = \.mp3
                 \.mp4

如果Webcrawler在解析某些页面的HTML时遇到问题，您可以在解析之前预处理HTML。例如。

[crawler]
blueprint = transmogrify.webcrawler
patterns = (<script>)[^<]*(</script>)
subs = \1\2

如果您想跳过处理具有特定MIME类型的链接，可以使用drop:condition。这个TALES表达式决定了哪些将被进一步处理。请参阅http://pypi.python.org/pypi/collective.transmogrifier/#condition-section

[drop]
blueprint = collective.transmogrifier.sections.condition
condition: python:item.get('_mimetype') not in ['application/x-javascript','text/css','text/plain','application/x-java-byte-code'] and item.get('_path','').split('.')[-1] not in ['class']

选项

site_url:

要爬取的顶级URL

ignore:

要跳过的URL的正则表达式列表

cache:

读取已爬取项的本地目录，而不是直接访问网站

patterns:

在解析HTML之前替换的正则表达式。每行一个

subs:

用于替换patterns中每个项的文本。必须与patterns的行数相同。由于buildout处理空行的方式，要替换为空字符串（例如移除模式），请使用<EMPTYSTRING>作为替换。

maxsize:

不爬取比这更大的内容

max:

限制爬取页面的数量

start-urls:

要初始爬取的URL列表

ignore-robots:

如果设置，将忽略robots.txt指令并爬取一切

WebCrawler会发出类似以下的项目

item = dict(_site_url = "Original site_url used",
           _path = "The url crawled without _site_url,
           _content = "The raw content returned by the url",
           _content_info = "Headers returned with content"
           _backlinks    = names,
           _sortorder    = "An integer representing the order the url was found within the page/site
            )