使用lxml的Parsley提取库
项目描述
Parslepy允许您从HTML和XML文档中提取内容,其中提取规则使用JSON对象或等效Python字典定义,其中键是要分配给提取内容的名称,值是CSS选择器或XPath表达式。
Parslepy是实现Parsley提取语言此处的版本,使用lxml和cssselect。
您可以嵌套对象,生成对象列表,并且在一定程度上可以混合CSS和XPath。
Parslepy理解lxml和cssselect理解的内容,这大致是CSS3选择器和XPath 1.0表达式。