美丽的汤的厨房
项目描述
visaplan.kitchen
此包处理“汤”,即由著名的beautifulsoup4包从解析的HTML或XML源创建的树。直接使用lxml可能也能完成相同任务,但这可能更困难,因此留给了另一个包。
功能
spoons模块,用于处理“汤”,例如
has_any_class(一个用于检查给定类之一的过滤函数)
forks模块(主要出于历史原因命名;用于在汤中探索),例如extract_linktext,convert_dimension_styles
ids模块,用于为HTML元素创建新ID
id_factory:
new_id = id_factory(...) id = new_id(prefix)
测试备注
这些模块通过doctests进行了文档化和测试。然而,由于导入问题,它们目前无法完全工作;请参阅问题跟踪器。
欢迎提供帮助。
示例
此附加组件在以下网站中可以看到作用
文档
目前,函数通过doctests进行文档化。
安装
通过将其添加到您的buildout中安装visaplan.kitchen
[buildout] ... eggs = visaplan.kitchen
然后运行 bin/buildout
贡献
支持
如果您遇到问题,请告诉我们;请使用上面提到的 问题跟踪器。
许可证
本项目采用GPLv2许可。
待办事项
.extract 模块
实现 head(words=N) 约束
创建通用的 wordcount 功能?(在 wc 程序之后;计数单词、字符以及可能的行数)
贡献者
Tobias Herp,tobias.herp@visaplan.com
变更日志
1.0.5 (2024-04-09)
新功能
.extract.head 支持了 verbose 选项以辅助处理多个字段;包含代码示例。
改进
为 .extract.head 添加了 doctest:是的,我们接受 text/plain。
杂项
.extract._head_kwargs:在注入 fuzz 默认值时,现在我们忽略了一个 words 限制,可能会额外提供;只需要 chars 限制。
[tobiasherp]
1.0.4 (2023-12-21)
错误修复
.spoons.stripped_soup 在调用空内容时引发 IndexError。
[tobiasherp]
1.0.3 (2022-09-20)
新功能
新增函数 .spoons.generate_image_infos
[tobiasherp]
1.0.2 (2021-10-27)
改进
按 isort 排序导入
新功能
新增 extract 模块,用于创建 HTML 文本的摘录(例如,包含前 NN 个可见字符的 head)
要求
lxml v3.7.0+(collect_ids 参数)
six 明确要求
visaplan.tools v1.3.7+
[tobiasherp]
1.0.1 (2020-02-25)
Python 3 兼容性(python-modernize) [tobiasherp]
1.0 (2018-09-17)
初始发布。 [tobiasherp]
项目详情
visaplan.kitchen-1.0.5.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 8b9ecd44068520042b531dd11dde18098c56cd094fe029d0fe281cc50634588c |
|
MD5 | f2c3fdb2ba59661b11453651439795c4 |
|
BLAKE2b-256 | 63010c3459aad1ab3462a53157089f78360dd14e9319468fdf858aba839e825a |