从微格式中解析hentry。
项目描述
解析具有微格式标记的精美网页。如果您对微格式一无所知,请查看 http://microformats.org/wiki/hentry。
hentry模式看起来像
<article class="hentry"> <h1 class="entry-title">Article title</h1> <time class="updated" datetime="2014-11-06T20:00:00Z" pubdate>2014-11-06</time> <div class="entry-content"> <p>Here is the content</p> </div> <div class="entry-tags"> <a href="#tag1" rel="tag">tag1</a> <a href="#tag2" rel="tag">tag2</a> </div> <div class="vcard author"> <span class="fn">Author Name</span> </div> </article>
使用这个库 hentry.py,您可以解析html到元数据
hentry.parse_html(text, format='html')
安装
使用pip安装hentry
$ pip install hentry
基本用法
通过URL解析网页
hentry.parse_url(url)
通过html内容解析网页
hentry.parse_html(content)
结果是包含以下内容的字典
标题
内容
作者
发布日期
标签
分类
图片