Python包，用于以标准方式清理与机器学习相关的标签。

这些详情尚未通过PyPI验证

项目链接

主页

项目描述

Sanitize ML Labels

Sanitize ML Labels是一个Python包，旨在标准化和清理与机器学习相关的标签。目前支持超过100个标签，包括指标和模型名称。

如果您有与机器学习相关的标签，并且您发现自己以一致的方式重命名和清理它们，使用适当的格式化，此包确保它们始终以标准方式清理。

如何安装此包？

您可以使用pip进行安装

pip install sanitize_ml_labels

使用示例

以下是规范化标签的一些常见用例

指标示例

from sanitize_ml_labels import sanitize_ml_labels

labels = [
    "acc",
    "loss",
    "auroc",
    "lr"
]

assert sanitize_ml_labels(labels) == [
    "Accuracy",
    "Loss",
    "AUROC",
    "Learning rate"
]

模型示例

from sanitize_ml_labels import sanitize_ml_labels

labels = [
    "mlp",
    "cnn",
    "ffNN",
    "Feed-forward neural network",
    "perceptron",
    "recurrent neural network",
    "LStM"
]

assert sanitize_ml_labels(labels) == [
    "MLP",
    "CNN",
    "FFNN",
    "FFNN",
    "Perceptron",
    "RNN",
    "LSTM"
]

assert sanitize_ml_labels("vanilla mlp") == "MLP"
assert sanitize_ml_labels("vanilla cnn") == "CNN"

assert sanitize_ml_labels([
    "Large Language Model",
    "transe",
    "Generative Pre-trained Transformer",
    "Graph Convolutional Neural Network",
    "Convolutional Graph Neural Network",
    "Graph Neural Network",
    "Graph Attention Network",
    "Graph Attention Neural Network",
]) == ["LLM","TransE","GPT","GCN","GCN","GNN","GAT","GAT"]

有时，您可能会遇到所有模型前缀为“vanilla”或“simple”或“basic”的情况。此包可以帮助您删除这些前缀。

from sanitize_ml_labels import sanitize_ml_labels

labels = [
    "vanilla mlp",
    "vanilla cnn",
    "vanilla ffnn",
    "vanilla perceptron"
]

assert sanitize_ml_labels(labels) == ["MLP", "CNN", "FFNN", "Perceptron"]

边界情况

有时，您可能会遇到需要正确识别和规范的带连字符的术语。我们使用基于一个超过45K个带连字符的英语单词的扩展列表的启发式方法，这些单词最初来自Metadata consulting网站。

由Tommaso Fontana编写的查找启发式方法确保高效且准确地识别带连字符的单词。

from sanitize_ml_labels import sanitize_ml_labels

# Running the following
assert sanitize_ml_labels("non-existent-edges-in-graph") == "Non-existent edges in graph"

额外工具

除了标签清理之外，该包还提供检查指标规范化的方法

是否是规范化的指标

验证指标是否落在[0, 1]的范围内。

from sanitize_ml_labels import is_normalized_metric

assert not is_normalized_metric("MSE")
assert is_normalized_metric("acc")
assert is_normalized_metric("accuracy")
assert is_normalized_metric("AUROC")
assert is_normalized_metric("auprc")

是否是绝对规范化的指标

验证指标是否落在[-1, 1]的范围内。

from sanitize_ml_labels import is_absolutely_normalized_metric

assert not is_absolutely_normalized_metric("auprc")
assert is_absolutely_normalized_metric("MCC")
assert is_absolutely_normalized_metric("Markedness")

应最大化

一个指标应该最大化还是最小化。未知指标将引发一个 NotImplementedError。

from sanitize_ml_labels import should_be_maximized

assert not should_be_maximized("MSE")
assert should_be_maximized("AUROC")
assert should_be_maximized("accuracy")

许可

本软件遵照MIT许可证发布。查看LICENSE。

项目详情

这些详情尚未通过PyPI验证

项目链接

主页

发布历史发布通知 | RSS源

本版本

1.1.2

2024年10月2日

1.1.0

2024年8月2日

1.0.51

2023年9月27日

1.0.50

2022年11月11日

1.0.49

2022年8月23日

1.0.48

2022年8月21日

1.0.47

2022年8月21日

1.0.46

2022年8月21日

1.0.45

2022年8月19日

1.0.44

2022年8月19日

1.0.43

2022年7月1日

1.0.42

2022年6月8日

1.0.41

2022年6月1日

1.0.40

2022年5月24日

1.0.39

2022年5月23日

1.0.38

2022年5月5日

1.0.37

2022年5月1日

1.0.36

2022年5月1日

1.0.35

2022年4月30日

1.0.33

2022年4月19日

1.0.32

2022年4月19日

1.0.31

2022年4月14日

1.0.30

2022年3月28日

1.0.29

2021年11月22日

1.0.28

2021年11月22日

1.0.27

2021年11月18日

1.0.26

2021年4月8日

1.0.25

2021年4月8日

1.0.24

2021年1月5日

1.0.23

2020年12月6日

1.0.22

2020年11月30日

1.0.21

2020年11月6日

1.0.20

2020年11月6日

1.0.19

2020年11月5日

1.0.18

2020年10月31日

1.0.17

2020年10月31日

1.0.16

2020年10月19日

1.0.15

2020年10月18日

1.0.14

2020年10月18日

1.0.13

2020年9月27日

1.0.12

2020年7月30日

1.0.11

2020年7月11日

1.0.10

2020年7月11日

1.0.9

2020年3月9日

1.0.8

2020年2月23日

1.0.7

2020年1月19日

1.0.6

2019年11月17日

1.0.5

2019年11月17日

1.0.4

2019年11月17日

1.0.3

2019年11月17日

1.0.2

2019年11月17日

1.0.1

2019年11月17日

1.0.0

2019年11月17日

下载文件

下载适合您平台的文件。如果您不确定该选择哪个，请了解有关安装包的更多信息。

源分发

sanitize_ml_labels-1.1.2.tar.gz (326.3 kB 查看哈希值)

上传时间 2024年10月2日 源