跳转到主要内容

检测软404页面的分类器

项目描述

PyPI Version Build Status Code Coverage

“软”404页面是服务器返回200状态码,但实际上表示内容不可用的页面。

安装

pip install soft404

用法

最简单的方法是使用soft404.probability函数

>>> import soft404
>>> soft404.probability('<h1>Page not found</h1>')
0.9736860086882132

您也可以显式创建一个分类器

>>> from soft404 import Soft404Classifier
>>> clf = Soft404Classifier()
>>> clf.predict('<h1>Page not found</h1>')
0.9736860086882132

开发

分类器在25k个域的120k个页面上进行训练,404页面比例约为1/3。通过10折交叉验证,PR AUC(平均精度)为0.990 ± 0.003,ROC AUC为0.995 ± 0.002。

获取训练数据

安装开发需求

pip install -r requirements_dev.txt

运行爬虫一段时间(结果将出现在pages.jl.gz文件中)

cd crawler
scrapy crawl spider -o gzip:pages.jl -s JOBDIR=job

训练

首先,从html中提取文本和结构

./soft404/convert_to_text.py pages.jl.gz items

这将产生两个文件,items.meta.jl.gzitems.items.jl.gz。接下来,训练分类器

./soft404/train.py items

向量器运行需要一些时间,但其结果被缓存(下次运行时将打印出缓存的文件名)。如果您对结果满意,请保存分类器

./soft404/train.py items --save soft404/clf.joblib

许可证

许可证是MIT。

项目详情


下载文件

下载适用于您平台文件的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源代码分发

soft404-0.2.1.tar.gz (30.3 kB 查看哈希值)

上传时间 源代码

支持者