从微格式中解析hentry。
项目描述
解析具有微格式标记的精美网页。如果您对微格式一无所知,请查看 http://microformats.org/wiki/hentry。
hentry模式看起来像
<article class="hentry">
<h1 class="entry-title">Article title</h1>
<time class="updated" datetime="2014-11-06T20:00:00Z" pubdate>2014-11-06</time>
<div class="entry-content">
<p>Here is the content</p>
</div>
<div class="entry-tags">
<a href="#tag1" rel="tag">tag1</a>
<a href="#tag2" rel="tag">tag2</a>
</div>
<div class="vcard author">
<span class="fn">Author Name</span>
</div>
</article>
使用这个库 hentry.py,您可以解析html到元数据
hentry.parse_html(text, format='html')
安装
使用pip安装hentry
$ pip install hentry
基本用法
通过URL解析网页
hentry.parse_url(url)
通过html内容解析网页
hentry.parse_html(content)
结果是包含以下内容的字典
标题
内容
作者
发布日期
标签
分类
图片