跳转到主要内容

Formasaurus使用机器学习告诉您HTML表单及其字段的类型

项目描述

PyPI Version Build Status Code Coverage Documentation

Formasaurus是一个Python包,使用机器学习告诉您HTML表单及其字段的类型。

它可以检测表单是否为登录、搜索、注册、密码恢复、“加入邮件列表”、联系、订单表单或其他内容,哪个字段是密码字段,哪个是搜索查询等。

许可证是MIT。

有关更多信息,请查看文档

变更

0.9.0 (2024-06-19)

  • 放弃了对Python 3.7及以下版本的官方支持,并添加了对Python 3.8及以上版本的官方支持。

  • 添加了对所有依赖项最新版本的支持,并按以下方式升级了依赖项的最小支持版本

    • docopt: 0.4.0

    • requests: 1.0.0

    • tldextract: 1.2.0

    • with-deps 额外依赖

      • joblib: 1.2.0

      • lxml: 4.4.1

      • lxml-html-clean: 0.1.0

      • scikit-learn: 0.18.00.24.0

      • scipy: 1.5.1

      • sklearn-crfsuite: 0.3.10.5.1

  • https://github.com/scrapinghub/formasaurus 是新的代码仓库,取代了 https://github.com/TeamHG-Memex/Formasaurus

  • 更新了 CI 配置和开发工具。

0.8.1 (2018-07-02)

  • 不再支持 scikit-learn < 0.18;

  • Formasaurus 不再使用 Python 3.3 进行测试;

  • 测试已修复以应对上游变更;启用了 Python 3.6 构建。

0.8 (2016-05-24)

  • 添加更多验证码的标注数据;

  • formasaurus init 命令用于训练和缓存模型。

0.7.2 (2016-04-18)

  • 绕过 pip 与 pip install formasaurus[with-deps] 相关的 bug;现在应该使用 pip install formasaurus[with_deps] 来运行。

0.7.1 (2016-03-03)

  • 在 readthedocs.org 上修复了 API 文档;

0.7 (2016-03-03)

  • 添加更多标注数据;

  • 添加了新的 form_classesfield_classes 属性到 FormFieldClassifier

  • formasaurus.utils.download 中改进了网页编码检测的鲁棒性;

  • 修复了标注小部件中的 bug;

0.6 (2016-01-27)

  • fields=False 参数现在在 formasaurus.extract_formsformasaurus.classifyformasaurus.classify_proba 函数和相关 FormFieldClassifier 方法中受支持。它允许在不需要时避免预测表单字段类型。

  • formasaurus.classifiers.instance() 已重命名为 formasaurus.classifiers.get_instance()

  • 不再对表单类型分类器进行偏差正则化。

0.5 (2015-12-19)

这是一个不兼容的前向版本。

  • Formasaurus 现在可以检测字段类型,而不仅仅是表单类型;

  • API 已更改 - 请查看更新后的文档;

  • 检测到的表单类型更多;

  • 评估设置得到了改进;

  • 使用 IPython 小部件重写了标注 UI;

  • 添加了更多训练数据。

0.2 (2015-08-10)

  • 支持 Python 3;

  • 修复了模型自动创建的问题。

0.1 (2015-07-09)

首次发布。

支持