SciKit-Learn Laboratory使得使用scikit-learn运行机器学习实验更加容易。
项目描述
这个Python包提供了命令行工具,使得使用scikit-learn运行机器学习实验更加容易。我们项目的首要目标是让您能够在不实际编写任何代码的情况下运行scikit-learn实验,除了您用于生成/提取特征时使用的代码。
安装
您可以使用pip或conda进行安装。详细信息请参阅这里。
需求
Python 3.10, 3.11, 或 3.12。
gridmap(如果您计划在DRMAA兼容的集群上并行运行,则需要)
命令行界面
我们提供的主要实用工具名为 run_experiment,它可以用来轻松运行一系列在配置文件中指定的学习器,例如
[General]
experiment_name = Titanic_Evaluate_Tuned
# valid tasks: cross_validate, evaluate, predict, train
task = evaluate
[Input]
# these directories could also be absolute paths
# (and must be if you're not running things in local mode)
train_directory = train
test_directory = dev
# Can specify multiple sets of feature files that are merged together automatically
featuresets = [["family.csv", "misc.csv", "socioeconomic.csv", "vitals.csv"]]
# List of scikit-learn learners to use
learners = ["RandomForestClassifier", "DecisionTreeClassifier", "SVC", "MultinomialNB"]
# Column in CSV containing labels to predict
label_col = Survived
# Column in CSV containing instance IDs (if any)
id_col = PassengerId
[Tuning]
# Should we tune parameters of all learners by searching provided parameter grids?
grid_search = true
# Function to maximize when performing grid search
objectives = ['accuracy']
[Output]
# Also compute the area under the ROC curve as an additional metric
metrics = ['roc_auc']
# The following can also be absolute paths
logs = output
results = output
predictions = output
probability = true
models = output
有关如何开始使用 run_experiment 的更多信息,请参阅我们的教程我们的教程,或我们的配置文件规范。
您还可以遵循这个交互式 Jupyter 教程。
我们还提供以下实用工具:
在机器学习工具包格式之间转换(例如,ARFF,CSV)
Python API
如果您只想避免编写大量的模板学习代码,您还可以使用我们的简单 Python API,该 API 也支持 pandas DataFrames。您使用 API 的主要方式是通过 Learner 和 Reader 类。有关我们 API 的更多详细信息,请参阅文档。
虽然我们的 API 可以非常广泛地使用,但应注意的是,命令行实用工具是使用 SKLL 的主要方式。API 只是我们在开发实用工具时的一个很好的副作用。
关于发音的说明
SciKit-Learn Laboratory (SKLL) 发音为“skull”:那里发生学习。
演讲
引用
如果您在工作中使用了 SKLL,您可以按照以下方式引用它:“我们使用了 scikit-learn(Pedragosa 等人,2011)通过 SKLL 工具包(https://github.com/EducationalTestingService/skll)。”
书籍
SKLL 在 Jeroen Janssens 的《Data Science at the Command Line》一书中有所介绍。Data Science at the Command Line。
变更日志
请参阅 GitHub 发布。
贡献
感谢您对 SKLL 贡献的兴趣!有关如何开始,请参阅CONTRIBUTING.md。
项目详情
skll-5.0.1.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 7c489921a32f20e536b4134e0390821c262a7ba46105f44a8d5095cf4a74742e |
|
MD5 | b01a9aee45dac31a1ecb98b97be3fbc8 |
|
BLAKE2b-256 | 37db8ccccb7d4d45ee1a4517591efc30575c0bda85f317de22771d41242fc457 |