这是一个命令行工具,可以在您的机器上创建您最喜欢的网站的全文搜索索引,并允许您本地搜索它们。
项目描述
关于SiteSearcher
SiteSearcher是一个命令行工具,可以在您的机器上创建您最喜欢的网站的全文搜索索引,并允许您本地搜索它们。
使用方法
sitesearcher indexer <mydomain>
- 为<mydomain>
创建本地搜索索引
sitesearcher search <mydomain>
- 打开<mydomain>
的搜索提示
大型网站的索引可能需要相当长的时间,但您可以在任何时候停止索引器,稍后继续。要停止索引器,请按一次<CTRL>+C
并等待优雅退出。要重新启动,请使用带有--continue
标志的索引命令再次运行,例如sitesearcher indexer <mydomain> --continue
。
Web服务器友好
在爬取时,SiteSearcher努力成为Web服务器友好,它遵守robot.txt
,以“SiteSearcher”用户代理的身份标识自己,并使用Scrapy Autothrottle扩展来减少对服务器的负载。
安装SiteSearcher
如果您已安装pip
,则可以使用pip
下载并安装SiteSearcher
。
pip install sitesearcher
获取源代码
从 PyPI 下载源代码发布版本,请访问 http://pypi.python.org/pypi/sitesearcher
您可以从 GitHub 检出最新的源代码版本。
git clone https://github.com/sbabrass/sitesearcher
支持的 Python 版本
SiteSearcher 支持 Python 版本 2.7 和 3.3+。
然而,在不同版本的 Python 之间切换可能需要重新构建您的索引,因为目前没有 SiteSearcher/Python 2 读取和写入由 SiteSearcher/Python 3 创建的索引以及反之亦然的支持。
历史
0.1a1
SiteSearcher 工具的初始版本
创建 Scrapy 爬虫以提取网站的全文本内容
创建 Whoosh 索引器以索引存储的网站
创建用于索引和搜索的 CLI
0.1a2
小的代码清理
项目详情
sitesearcher-0.1a2.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 56d6aa106746281deb53e823469cb3451012b45af798ef5e24df726e6d00bbfe |
|
MD5 | 5476516cf00f92e5da42ba8c6af02a8b |
|
BLAKE2b-256 | 96c56ae1b2a6290449cffb9ffe8544df564aa20be5b108078200a7ba0fcde2c9 |