检测软404页面的分类器
项目描述
“软”404页面是服务器返回200状态码,但实际上表示内容不可用的页面。
安装
pip install soft404
用法
最简单的方法是使用soft404.probability函数
>>> import soft404 >>> soft404.probability('<h1>Page not found</h1>') 0.9736860086882132
您也可以显式创建一个分类器
>>> from soft404 import Soft404Classifier >>> clf = Soft404Classifier() >>> clf.predict('<h1>Page not found</h1>') 0.9736860086882132
开发
分类器在25k个域的120k个页面上进行训练,404页面比例约为1/3。通过10折交叉验证,PR AUC(平均精度)为0.990 ± 0.003,ROC AUC为0.995 ± 0.002。
获取训练数据
安装开发需求
pip install -r requirements_dev.txt
运行爬虫一段时间(结果将出现在pages.jl.gz文件中)
cd crawler scrapy crawl spider -o gzip:pages.jl -s JOBDIR=job
训练
首先,从html中提取文本和结构
./soft404/convert_to_text.py pages.jl.gz items
这将产生两个文件,items.meta.jl.gz和items.items.jl.gz。接下来,训练分类器
./soft404/train.py items
向量器运行需要一些时间,但其结果被缓存(下次运行时将打印出缓存的文件名)。如果您对结果满意,请保存分类器
./soft404/train.py items --save soft404/clf.joblib
许可证
许可证是MIT。
项目详情
关闭
soft404-0.2.1.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 09d2cf8bd6264d542f3f8613e3d8693e229eca149b203b30822506e4e0805c4f |
|
MD5 | cdeef15dd9456a109f3354bce5376410 |
|
BLAKE2b-256 | de161691f87f56a6a8ef0bbd164b389b1ab97a3fe82556921a1d619dcb5ba6a7 |