跳转到主要内容

这是一个命令行工具,可以在您的机器上创建您最喜欢的网站的全文搜索索引,并允许您本地搜索它们。

项目描述

关于SiteSearcher

SiteSearcher是一个命令行工具,可以在您的机器上创建您最喜欢的网站的全文搜索索引,并允许您本地搜索它们。

使用方法

sitesearcher indexer <mydomain> - 为<mydomain>创建本地搜索索引

sitesearcher search <mydomain> - 打开<mydomain>的搜索提示

大型网站的索引可能需要相当长的时间,但您可以在任何时候停止索引器,稍后继续。要停止索引器,请按一次<CTRL>+C并等待优雅退出。要重新启动,请使用带有--continue标志的索引命令再次运行,例如sitesearcher indexer <mydomain> --continue

Web服务器友好

在爬取时,SiteSearcher努力成为Web服务器友好,它遵守robot.txt,以“SiteSearcher”用户代理的身份标识自己,并使用Scrapy Autothrottle扩展来减少对服务器的负载。

安装SiteSearcher

如果您已安装pip,则可以使用pip下载并安装SiteSearcher

pip install sitesearcher

SiteSearcher 使用了 Scrapy 机器人框架,因此继承了它的 依赖关系

获取源代码

从 PyPI 下载源代码发布版本,请访问 http://pypi.python.org/pypi/sitesearcher

您可以从 GitHub 检出最新的源代码版本。

git clone https://github.com/sbabrass/sitesearcher

支持的 Python 版本

SiteSearcher 支持 Python 版本 2.7 和 3.3+。

然而,在不同版本的 Python 之间切换可能需要重新构建您的索引,因为目前没有 SiteSearcher/Python 2 读取和写入由 SiteSearcher/Python 3 创建的索引以及反之亦然的支持。

历史

0.1a1

  • SiteSearcher 工具的初始版本

  • 创建 Scrapy 爬虫以提取网站的全文本内容

  • 创建 Whoosh 索引器以索引存储的网站

  • 创建用于索引和搜索的 CLI

0.1a2

  • 小的代码清理

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源代码分发

sitesearcher-0.1a2.tar.gz (7.2 kB 查看哈希值)

上传时间

支持者