将HTML转换为等效的Markdown结构化文本。适用于Telegram。
项目描述
html2texttg
html2text-tg是一个Python脚本,可以将HTML页面转换为干净的、易于阅读的纯ASCII文本。更好的是,这个ASCII文本也是有效的Markdown(一种文本到HTML的格式)。
支持的Markdown
用法:html2texttg [(filename|url) [encoding]]
选项 | 描述 |
---|---|
--version |
显示程序版本号并退出 |
-h ,--help |
显示此帮助信息并退出 |
--ignore-links |
不包含任何链接的格式化 |
--escape-all |
转义所有特殊字符。输出更难阅读,但避免了格式化问题的边缘情况。 |
--reference-links |
使用引用链接而不是链接来创建Markdown |
--mark-code |
使用[代码]...[/代码]标记预格式化和代码块 |
有关选项的完整列表,请参阅文档
或者您可以在Python
中使用它
>>> import html2texttg
>>>
>>> print(html2texttg.html2text("<p><strong>Zed's</strong> dead baby, <em>Zed's</em> dead.</p>"))
**Zed's** dead baby, _Zed's_ dead.
或者使用一些配置选项
>>> import html2texttg
>>>
>>> h = html2texttg.HTML2Text()
>>> # Ignore converting links from HTML
>>> h.ignore_links = True
>>> print h.handle("<p>Hello, <a href='http://earth.google.com/'>world</a>!")
Hello, world!
>>> print(h.handle("<p>Hello, <a href='http://earth.google.com/'>world</a>!"))
Hello, world!
>>> # Don't Ignore links anymore, I like links
>>> h.ignore_links = False
>>> print(h.handle("<p>Hello, <a href='http://earth.google.com/'>world</a>!"))
Hello, [world](http://earth.google.com/)!
最初由Aaron Swartz编写。此代码在GPLv3下分发。
如何安装
html2texttg
可在PyPI上找到 https://pypi.python.org/pypi/html2texttg
$ pip install html2texttg
如何运行单元测试
$ python -m unittest
文档
文档位于此处
项目详情
关闭
html2texttg-1.0.3.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 09fcb327832553f13fd27a5196213f9f59efbe076f00c692f7798738d4beef37 |
|
MD5 | 6e0b0d46e1883988841269aef2499c00 |
|
BLAKE2b-256 | 4d33c97406e9026f2daef28b1b03ae6574e5b19a67b51a05b2c280d13a62297b |