使用html5lib过滤器截断HTML
项目描述
html5lib-truncation 是一个 html5lib 过滤器实现,可以将HTML截断到特定长度进行显示,但永远不会破坏HTML标签。
有一个快捷函数,使用它最简单的方法
>>> from html5lib_truncation import truncate_html
>>>
>>> html = u'<p>A <a href="#">very very long link</a></p>'
>>> truncate_html(html, 8)
u'<p>A <a href=#>very</a>'
>>> truncate_html(html, 8, break_words=True)
u'<p>A <a href=#>very ve</a>'
>>> truncate_html(html, 20, end='...')
u'<p>A <a href=#>very very...</a>'
>>> truncate_html(html, 20, end='...', break_words=True)
u'<p>A <a href=#>very very lon...</a>'
安装
pip install html5lib-truncation
别忘了将其放入您的 requirements.txt 或 setup.py。
API概述
html5lib-truncation 的核心API是过滤器
import html5lib
from html5lib_truncation import TruncationFilter
etree = html5lib.parse(u'<p>A <a href="#">very very long link</a></p>')
walker = html5lib.getTreeWalker('etree')
stream = walker(etree)
stream = TruncationFilter(stream, 20, end='...', break_words=True)
serializer = html5lib.serializer.HTMLSerializer()
serialized = serializer.serialize(stream)
print(u''.join(serialized).strip())
输出为 <p>A <a href=#>very very lon...</a>。
问题
如果您想报告错误或其他问题,请创建GitHub Issues。
贡献
您可以在 GitHub 上发送pull请求。
项目详情
关闭
html5lib-truncation-0.1.0.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | f69d3b3e31d4e9caef138d4602ed8eb531eaafd94b6f9ee8b4932722cd3d0308 |
|
MD5 | 7e41e3c92ce9fdd8590c7899415dc056 |
|
BLAKE2b-256 | cf0dd07cc96c60000dfa1afd446b0660e6f3f8ff59ef0d513dafc907f1d3ee60 |
关闭
html5lib_truncation-0.1.0-py2.py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 2179c3d04a948aaf4ce8b4472b18fa3b2cb9f4956eb3810942be620faf36a9d3 |
|
MD5 | 01b9926eed1bebe6d6538945697b8d6b |
|
BLAKE2b-256 | ca9685470bf06ca3a5fef024aefe29514516871c169e4c42e8e1c2ff81d48513 |