从HTML中提取文本和一些元信息,尽可能处理格式不正确的页面。
项目描述
此软件包是为搜索引擎编写的,以便它能够从HTML页面中提取文本内容和元信息。它试图处理无效的标记和错误指定的字符集,并移除HTML标签(在标签处适当拆分单词)。它还丢弃script标签和style标签的内容。
除了页面主体中的文本外,它还提取页面标题、元描述和关键词标签的内容。它还解析元robots标签以确定页面是否应该被编目。
此模块使用的HTML解析器是从Xapian搜索引擎库中提取的(特别是从该库中的omindex索引实用程序中提取的)。
关闭
htmltotext-0.7.3.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 7d57e5161a38ecfbad8e7d5f6e16b792b66f1c0a615e80bd78fd0efbf03a5b15 |
|
MD5 | 3b6125bb2b8ebe0c60235dbb45a3205f |
|
BLAKE2b-256 | 1aee2f92c5077c1cf6d0fd6df8cb950e6cc0552082933c5da300ab78ab710ca5 |