跳转到主要内容

找到数据集的唯一索引

项目描述

由于数据集通常提供很少的元数据,我想在不依赖于特殊信息的情况下推断一些常规元数据。其中一种元数据类型是数据集的模式。

特殊雪花在任意数据集中寻找唯一标识符。运行方式如下。

$ snowflake bus_stops.csv
route.number, stop.id, n.students
time, n.students, location
route.name, n.students, location
route.name, stop.id
route.number, stop.id, time

默认情况下,您将获得bus_stops.csv中最多三列的所有组合,这些组合在完整的工作表中作为唯一索引。

或者从Python中调用它!

from special_snowflake import fromcsv
from pprint import pprint
with open('open-data-index.csv') as fp:
    pprint(fromcsv(csv.DictReader(fp), n_columns = 2, only_adjacent = False))

该程序在open-data-index.csv中找到所有一列或两列的组合,这些组合在完整的工作表中作为唯一索引。

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分布

由以下支持