跳转到主要内容

从HTML中提取文本和一些元信息,尽可能处理格式不正确的页面。

项目描述

此软件包是为搜索引擎编写的,以便它能够从HTML页面中提取文本内容和元信息。它试图处理无效的标记和错误指定的字符集,并移除HTML标签(在标签处适当拆分单词)。它还丢弃script标签和style标签的内容。

除了页面主体中的文本外,它还提取页面标题、元描述和关键词标签的内容。它还解析元robots标签以确定页面是否应该被编目。

此模块使用的HTML解析器是从Xapian搜索引擎库中提取的(特别是从该库中的omindex索引实用程序中提取的)。

支持者

AWSAWS 云计算和安全赞助商 DatadogDatadog 监控 FastlyFastly CDN GoogleGoogle 下载分析 MicrosoftMicrosoft PSF赞助商 PingdomPingdom 监控 SentrySentry 错误日志 StatusPageStatusPage 状态页