找到数据集的唯一索引
项目描述
由于数据集通常提供很少的元数据,我想在不依赖于特殊信息的情况下推断一些常规元数据。其中一种元数据类型是数据集的模式。
特殊雪花在任意数据集中寻找唯一标识符。运行方式如下。
$ snowflake bus_stops.csv route.number, stop.id, n.students time, n.students, location route.name, n.students, location route.name, stop.id route.number, stop.id, time
默认情况下,您将获得bus_stops.csv中最多三列的所有组合,这些组合在完整的工作表中作为唯一索引。
或者从Python中调用它!
from special_snowflake import fromcsv from pprint import pprint with open('open-data-index.csv') as fp: pprint(fromcsv(csv.DictReader(fp), n_columns = 2, only_adjacent = False))
该程序在open-data-index.csv中找到所有一列或两列的组合,这些组合在完整的工作表中作为唯一索引。
项目详情
关闭
special_snowflake-0.0.9.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | c1ceff7397502b6269a429fc6560357541f8bf3cf910e345859f5d0d3a535935 |
|
MD5 | 51b8228be2a2316c82ea7c2979ca1684 |
|
BLAKE2b-256 | 2bcce9f2f6e593fb4fdae7d05dda78866f33ddba648473a84535b6952ec89629 |