跳转到主要内容

美丽的汤的厨房

项目描述

https://travis-ci.org/visaplan/kitchen.svg?branch=master

visaplan.kitchen

此包处理“汤”,即由著名的beautifulsoup4包从解析的HTML或XML源创建的树。直接使用lxml可能也能完成相同任务,但这可能更困难,因此留给了另一个包。

功能

  • spoons模块,用于处理“汤”,例如

    • has_any_class(一个用于检查给定类之一的过滤函数)

  • forks模块(主要出于历史原因命名;用于在汤中探索),例如extract_linktextconvert_dimension_styles

  • ids模块,用于为HTML元素创建新ID

    • id_factory:

      new_id = id_factory(...)
      id = new_id(prefix)

测试备注

这些模块通过doctests进行了文档化和测试。然而,由于导入问题,它们目前无法完全工作;请参阅问题跟踪器

欢迎提供帮助。

示例

此附加组件在以下网站中可以看到作用

文档

目前,函数通过doctests进行文档化。

安装

通过将其添加到您的buildout中安装visaplan.kitchen

[buildout]

...

eggs =
    visaplan.kitchen

然后运行 bin/buildout

贡献

支持

如果您遇到问题,请告诉我们;请使用上面提到的 问题跟踪器

许可证

本项目采用GPLv2许可。

待办事项

  • .extract 模块

    • 实现 head(words=N) 约束

    • 创建通用的 wordcount 功能?(在 wc 程序之后;计数单词、字符以及可能的行数)

贡献者

变更日志

1.0.5 (2024-04-09)

新功能

  • .extract.head 支持了 verbose 选项以辅助处理多个字段;包含代码示例。

改进

  • 为 .extract.head 添加了 doctest:是的,我们接受 text/plain。

杂项

  • .extract._head_kwargs:在注入 fuzz 默认值时,现在我们忽略了一个 words 限制,可能会额外提供;只需要 chars 限制。

[tobiasherp]

1.0.4 (2023-12-21)

错误修复

  • .spoons.stripped_soup 在调用空内容时引发 IndexError。

[tobiasherp]

1.0.3 (2022-09-20)

新功能

  • 新增函数 .spoons.generate_image_infos

[tobiasherp]

1.0.2 (2021-10-27)

改进

新功能

  • 新增 extract 模块,用于创建 HTML 文本的摘录(例如,包含前 NN 个可见字符的 head

要求

[tobiasherp]

1.0.1 (2020-02-25)

  • Python 3 兼容性(python-modernize) [tobiasherp]

1.0 (2018-09-17)

  • 初始发布。 [tobiasherp]

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解有关 安装包 的更多信息。

源分发

visaplan.kitchen-1.0.5.tar.gz (49.7 kB 查看哈希值

上传时间

支持者:

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面