htmltotext · PyPI · Python 包索引

从HTML中提取文本和一些元信息，尽可能处理格式不正确的页面。

这些详情尚未由PyPI 验证

项目链接

开发状态
- 3 - Alpha
目标受众
- 开发者
许可证
- OSI批准 :: GNU通用公共许可证（GPL)
操作系统
- MacOS
- Microsoft
- POSIX
编程语言
- C++
主题
- 互联网 :: WWW/HTTP :: 编目/搜索

项目描述

此软件包是为搜索引擎编写的，以便它能够从HTML页面中提取文本内容和元信息。它试图处理无效的标记和错误指定的字符集，并移除HTML标签（在标签处适当拆分单词）。它还丢弃script标签和style标签的内容。

除了页面主体中的文本外，它还提取页面标题、元描述和关键词标签的内容。它还解析元robots标签以确定页面是否应该被编目。

此模块使用的HTML解析器是从Xapian搜索引擎库中提取的（特别是从该库中的omindex索引实用程序中提取的）。

项目详情

这些详情尚未由PyPI 验证

项目链接

开发状态
- 3 - Alpha
目标受众
- 开发者
许可证
- OSI批准 :: GNU通用公共许可证（GPL)
操作系统
- MacOS
- Microsoft
- POSIX
编程语言
- C++
主题
- 互联网 :: WWW/HTTP :: 编目/搜索

发布历史发布通知 | RSS源

此版本

0.7.3

2008年12月15日

0.7.2

2008年7月29日

0.7.1

2008年7月29日

0.7

2008年7月21日

0.6

2007年10月6日

0.5

2007年10月5日

下载文件

下载适合您平台的文件。如果您不确定选择哪个，请了解有关安装软件包的更多信息。

源分发

htmltotext-0.7.3.tar.gz (27.6 kB 查看哈希值)

上传时间 2008年12月15日 源代码

htmltotext-0.7.3.tar.gz 的哈希值

htmltotext-0.7.3.tar.gz 的哈希值
算法	哈希摘要
SHA256	`7d57e5161a38ecfbad8e7d5f6e16b792b66f1c0a615e80bd78fd0efbf03a5b15`
MD5	`3b6125bb2b8ebe0c60235dbb45a3205f`
BLAKE2b-256	`1aee2f92c5077c1cf6d0fd6df8cb950e6cc0552082933c5da300ab78ab710ca5`

htmltotext 0.7.3

导航

已验证详情

维护者

未验证详情

项目链接

元信息

分类

项目描述

项目详情

已验证详情

维护者

未验证详情

项目链接

元信息

分类

发布历史发布通知 | RSS源

下载文件

源分发

htmltotext 0.7.3

导航

已验证详情

维护者

未验证详情

项目链接

元信息

分类

项目描述

项目详情

已验证详情

维护者

未验证详情

项目链接

元信息

分类

发布历史 发布通知 | RSS源

下载文件

源分发

发布历史发布通知 | RSS源