跳转到主要内容

将HTML转换为等效的Markdown结构化文本。适用于Telegram。

项目描述

html2texttg

Build Status Downloads Version Wheel? Format License

html2text-tg是一个Python脚本,可以将HTML页面转换为干净的、易于阅读的纯ASCII文本。更好的是,这个ASCII文本也是有效的Markdown(一种文本到HTML的格式)。

支持的Markdown

用法:html2texttg [(filename|url) [encoding]]

选项 描述
--version 显示程序版本号并退出
-h--help 显示此帮助信息并退出
--ignore-links 不包含任何链接的格式化
--escape-all 转义所有特殊字符。输出更难阅读,但避免了格式化问题的边缘情况。
--reference-links 使用引用链接而不是链接来创建Markdown
--mark-code 使用[代码]...[/代码]标记预格式化和代码块

有关选项的完整列表,请参阅文档

或者您可以在Python中使用它

>>> import html2texttg
>>>
>>> print(html2texttg.html2text("<p><strong>Zed's</strong> dead baby, <em>Zed's</em> dead.</p>"))
**Zed's** dead baby, _Zed's_ dead.

或者使用一些配置选项

>>> import html2texttg
>>>
>>> h = html2texttg.HTML2Text()
>>> # Ignore converting links from HTML
>>> h.ignore_links = True
>>> print h.handle("<p>Hello, <a href='http://earth.google.com/'>world</a>!")
Hello, world!

>>> print(h.handle("<p>Hello, <a href='http://earth.google.com/'>world</a>!"))

Hello, world!

>>> # Don't Ignore links anymore, I like links
>>> h.ignore_links = False
>>> print(h.handle("<p>Hello, <a href='http://earth.google.com/'>world</a>!"))
Hello, [world](http://earth.google.com/)!

最初由Aaron Swartz编写。此代码在GPLv3下分发。

如何安装

html2texttg可在PyPI上找到 https://pypi.python.org/pypi/html2texttg

$ pip install html2texttg

如何运行单元测试

$ python -m unittest

文档

文档位于此处

项目详情


下载文件

下载适合您平台的文件。如果您不确定该选择哪个,请了解有关安装包的更多信息。

源代码分发

html2texttg-1.0.3.tar.gz (36.6 kB 查看哈希值)

上传时间 源代码

支持