Formasaurus使用机器学习告诉您HTML表单及其字段的类型
项目描述
Formasaurus是一个Python包,使用机器学习告诉您HTML表单及其字段的类型。
它可以检测表单是否为登录、搜索、注册、密码恢复、“加入邮件列表”、联系、订单表单或其他内容,哪个字段是密码字段,哪个是搜索查询等。
许可证是MIT。
有关更多信息,请查看文档。
变更
0.9.0 (2024-06-19)
放弃了对Python 3.7及以下版本的官方支持,并添加了对Python 3.8及以上版本的官方支持。
添加了对所有依赖项最新版本的支持,并按以下方式升级了依赖项的最小支持版本
docopt: 0.4.0
requests: 1.0.0
tldextract: 1.2.0
with-deps 额外依赖
joblib: 1.2.0
lxml: 4.4.1
lxml-html-clean: 0.1.0
scikit-learn: 0.18.0 → 0.24.0
scipy: 1.5.1
sklearn-crfsuite: 0.3.1 → 0.5.1
https://github.com/scrapinghub/formasaurus 是新的代码仓库,取代了 https://github.com/TeamHG-Memex/Formasaurus。
更新了 CI 配置和开发工具。
0.8.1 (2018-07-02)
不再支持 scikit-learn < 0.18;
Formasaurus 不再使用 Python 3.3 进行测试;
测试已修复以应对上游变更;启用了 Python 3.6 构建。
0.8 (2016-05-24)
添加更多验证码的标注数据;
formasaurus init 命令用于训练和缓存模型。
0.7.2 (2016-04-18)
绕过 pip 与 pip install formasaurus[with-deps] 相关的 bug;现在应该使用 pip install formasaurus[with_deps] 来运行。
0.7.1 (2016-03-03)
在 readthedocs.org 上修复了 API 文档;
0.7 (2016-03-03)
添加更多标注数据;
添加了新的 form_classes 和 field_classes 属性到 FormFieldClassifier;
在 formasaurus.utils.download 中改进了网页编码检测的鲁棒性;
修复了标注小部件中的 bug;
0.6 (2016-01-27)
fields=False 参数现在在 formasaurus.extract_forms、formasaurus.classify、formasaurus.classify_proba 函数和相关 FormFieldClassifier 方法中受支持。它允许在不需要时避免预测表单字段类型。
formasaurus.classifiers.instance() 已重命名为 formasaurus.classifiers.get_instance()。
不再对表单类型分类器进行偏差正则化。
0.5 (2015-12-19)
这是一个不兼容的前向版本。
Formasaurus 现在可以检测字段类型,而不仅仅是表单类型;
API 已更改 - 请查看更新后的文档;
检测到的表单类型更多;
评估设置得到了改进;
使用 IPython 小部件重写了标注 UI;
添加了更多训练数据。
0.2 (2015-08-10)
支持 Python 3;
修复了模型自动创建的问题。
0.1 (2015-07-09)
首次发布。
formasaurus-0.9.0.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | b54a49a1c4274bdffa4f53b35e46eae2d300517285e9db811dd5124b95ca5b19 |
|
MD5 | 7abfc6fa8eadf4b787736fbc83db2f40 |
|
BLAKE2b-256 | 29fc9c311a6c75ec7d609cd2b580a461594a6344c71d7e89ac000db97319d54b |
formasaurus-0.9.0-py2.py3-none-any.whl的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | a6faac9701359ea601ea139c0de51b345a0d4b9fc54d1e85a2d6dc08bd1120ea |
|
MD5 | 6ebd1f62cf1886e6f2441bc7528f48f3 |
|
BLAKE2b-256 | 3a247358509d067e31b0d9d183799853e56d102b3e0e0c12904789769e623dc8 |