跳转到主要内容

针对HASY数据集的工具。

项目描述

PyPI version Python Support Code style: black GitHub last commit GitHub commits since latest release (by SemVer) CodeFactor

有关数据集的详细信息,请参阅 HASY论文。如果您想报告HASY数据集的问题,请发送电子邮件至 info@martin-thoma.de 或在 https://github.com/MartinThoma/HASY 上提交问题。

勘误表列在git仓库以及实际的 hasy 包中。

内容

HASYv2数据集 的内容是

  • hasy-data:168236个png图像,每个32px x 32px
  • hasy-data-labels.csv:所有图像的标签。
  • classification-task:10个文件夹(fold-1,fold-2,...,fold-10),每个文件夹包含一个 train.csv 和一个 test.csv。csv文件的每一行都指向一个png图像(相对于自身)。如果使用这些文件,则不需要 hasy-data-labels.csv
  • verification-task:一个 train.csv 和三个不同的测试文件。所有文件应该以完全相同的方式使用,但应分别报告每个文件的准确率。任务是判断一对两个32px x 32px的图像是否属于同一符号(二元分类)。
  • symbols.csv:所有类别
  • README.txt:此文件

如何评估

分类任务

使用预定义的10折进行10折交叉验证。报告平均准确率以及最小和最大准确率。

验证任务

使用 train.csv 进行训练。使用 test-v1.csvtest-v2.csvtest-v3.csv 进行评估。为每个测试组报告TP、TN、FP、FN和准确率。

hasy包

hasy 可以有两种使用方式:(1) 作为shell脚本 (2) 作为Python模块。

如果您想获取有关shell脚本选项的更多信息,请执行

$ hasy --help
usage: hasy [-h] [--dataset DATASET] [--verify] [--overview] [--analyze_color]
            [--class_distribution] [--distances] [--pca] [--variance]
            [--correlation] [--count-users] [--analyze-cm CM]

optional arguments:
  -h, --help            show this help message and exit
  --dataset DATASET     specify which data to use (default: None)
  --verify              verify PNG files (default: False)
  --overview            Get overview of data (default: False)
  --analyze_color       Analyze the color distribution (default: False)
  --class_distribution  Analyze the class distribution (default: False)
  --distances           Analyze the euclidean distance distribution (default:
                        False)
  --pca                 Show how many principal components explain 90% / 95% /
                        99% of the variance (default: False)
  --variance            Analyze the variance of features (default: False)
  --correlation         Analyze the correlation of features (default: False)
  --count-users         Count how many different users have created the
                        dataset (default: False)
  --analyze-cm CM       Analyze a confusion matrix in JSON format. (default:
                        False)

如果您想将 hasy 作为Python包使用,请参阅

python -c "import hasy.hasy_tools;help(hasy.hasy_tools)"

变更日志

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

hasy-0.3.1.tar.gz (18.1 kB 查看散列)

上传时间

构建分布

hasy-0.3.1-py3-none-any.whl (16.9 kB 查看散列)

上传时间 Python 3

支持者