跳转到主要内容

SciKit-Learn Laboratory使得使用scikit-learn运行机器学习实验更加容易。

项目描述

Gitlab CI status Azure Pipelines status https://codecov.io/gh/EducationalTestingService/skll/branch/main/graph/badge.svg Latest version on PyPI License Conda package for SKLL Supported python versions for SKLL DOI for citing SKLL 1.0.0 https://mybinder.org/badge_logo.svg

这个Python包提供了命令行工具,使得使用scikit-learn运行机器学习实验更加容易。我们项目的首要目标是让您能够在不实际编写任何代码的情况下运行scikit-learn实验,除了您用于生成/提取特征时使用的代码。

安装

您可以使用pip或conda进行安装。详细信息请参阅这里

需求

命令行界面

我们提供的主要实用工具名为 run_experiment,它可以用来轻松运行一系列在配置文件中指定的学习器,例如

[General]
experiment_name = Titanic_Evaluate_Tuned
# valid tasks: cross_validate, evaluate, predict, train
task = evaluate

[Input]
# these directories could also be absolute paths
# (and must be if you're not running things in local mode)
train_directory = train
test_directory = dev
# Can specify multiple sets of feature files that are merged together automatically
featuresets = [["family.csv", "misc.csv", "socioeconomic.csv", "vitals.csv"]]
# List of scikit-learn learners to use
learners = ["RandomForestClassifier", "DecisionTreeClassifier", "SVC", "MultinomialNB"]
# Column in CSV containing labels to predict
label_col = Survived
# Column in CSV containing instance IDs (if any)
id_col = PassengerId

[Tuning]
# Should we tune parameters of all learners by searching provided parameter grids?
grid_search = true
# Function to maximize when performing grid search
objectives = ['accuracy']

[Output]
# Also compute the area under the ROC curve as an additional metric
metrics = ['roc_auc']
# The following can also be absolute paths
logs = output
results = output
predictions = output
probability = true
models = output

有关如何开始使用 run_experiment 的更多信息,请参阅我们的教程我们的教程,或我们的配置文件规范

您还可以遵循这个交互式 Jupyter 教程

我们还提供以下实用工具:

Python API

如果您只想避免编写大量的模板学习代码,您还可以使用我们的简单 Python API,该 API 也支持 pandas DataFrames。您使用 API 的主要方式是通过 LearnerReader 类。有关我们 API 的更多详细信息,请参阅文档

虽然我们的 API 可以非常广泛地使用,但应注意的是,命令行实用工具是使用 SKLL 的主要方式。API 只是我们在开发实用工具时的一个很好的副作用。

关于发音的说明

SKLL logo
doc/spacer.png

SciKit-Learn Laboratory (SKLL) 发音为“skull”:那里发生学习。

演讲

  • 使用 SKLL 1.0 简化机器学习,Dan Blanchard,PyData NYC 2014 (视频 | 幻灯片)

  • 使用 SKLL 简化机器学习,Dan Blanchard,PyData NYC 2013 (视频 | 幻灯片)

引用

如果您在工作中使用了 SKLL,您可以按照以下方式引用它:“我们使用了 scikit-learn(Pedragosa 等人,2011)通过 SKLL 工具包(https://github.com/EducationalTestingService/skll)。”

书籍

SKLL 在 Jeroen Janssens 的《Data Science at the Command Line》一书中有所介绍。Data Science at the Command Line

变更日志

请参阅 GitHub 发布

贡献

感谢您对 SKLL 贡献的兴趣!有关如何开始,请参阅CONTRIBUTING.md

项目详情


发布历史 发布通知 | RSS 源

下载文件

下载您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源代码分发

skll-5.0.1.tar.gz (131.7 kB 查看哈希值)

源代码

支持