用于探索包括多媒体在内的列数据工具
项目描述
Kangas:大规模探索多媒体数据集 :kangaroo
Kangas是一个用于探索、分析和可视化大规模多媒体数据的工具。它提供了一个简单的Python API,用于记录大量数据表,并提供一个直观的视觉界面,用于对您的数据集执行复杂查询。
Kangas的关键特性包括:
- 可扩展性。Kangas DataGrid(表示数据集的基本类)可以轻松存储数百万行数据。
- 性能。通过简单快速的UI,在数百万个数据点上分组、排序和过滤仅需几秒钟。
- 互操作性。任何数据,任何环境。Kangas可以在笔记本或作为独立应用程序中运行,本地和远程均可。
- 集成计算机视觉支持。无需额外设置即可可视化并过滤边界框、标签和元数据。
您可以在 kangas.comet.com 访问Kangas的实时演示。
入门指南
Kangas可以通过pip作为Python库访问
pip install kangas
安装后,有多种方式可以加载或创建DataGrid。
即使不编写任何代码,您也可以下载DataGrid并开始探索数据。在控制台
kangas server https://github.com/caleb-kaiser/kangas_examples/raw/master/coco-500.datagrid.zip
就这样!
在下一个示例中,我们加载一个公开可用的DataGrid文件,但Kangas API还提供了导入CSV、Pandas DataFrames以及手动构建新DataGrid的方法
import kangas as kg
# Load an existing DataGrid
dg = kg.read_datagrid("https://github.com/caleb-kaiser/kangas_examples/raw/master/coco-500.datagrid.zip")
初始化DataGrid后,您可以直接从Python在Kangas Viewer中渲染它
dg.show()
从Kangas查看器中,您可以对数据进行分组、排序和筛选。此外,Kangas会尽力解析附加到您的资产上的任何元数据。例如,如果您使用上面快速入门中的COCO-500数据网格,Kangas将自动解析每张图片的标签和得分。
现在您已经开始使用Kangas了!
Pandas数据框
Kangas还可以直接读取Pandas数据框对象。
import kangas as kg
import pandas as pd
df = pd.DataFrame({"hidden_layer_size": [8, 16, 64], "loss": [0.97, 0.53, 0.12]})
dg = kg.read_dataframe(df)
HuggingFace数据集
由于HuggingFace数据集使用字典行,并且图像由PIL图像表示,因此可以直接将其加载到数据网格中。数据网格会自动将PIL图像转换为Kangas图像。
import kangas as kg
from datasets import load_dataset
dataset = load_dataset("beans", split="train")
dg = kg.DataGrid(dataset)
Parquet文件
注意:您需要安装pyarrow才能读取Parquet文件。
import kangas as kg
dg = kg.read_parquet("https://github.com/Teradata/kylo/raw/master/samples/sample-data/parquet/userdata5.parquet")
如果您想进一步探索,请查看下面的示例笔记本。
文档
常见问题解答
Kangas已经准备好供公众使用了吗?
Kangas目前处于公开测试阶段。我们对Kangas进行了大量的压力测试,并相信可以与公众分享。尽管如此,这是一个非常年轻的项目,存在一些错误和边缘情况。此外,新功能将以较快的速度添加,因此如果您发现错误或有任何请求,请随时提交工单或开始讨论。
Kangas支持____系统?
Kangas可以作为独立应用程序在新版本的Windows、MacOS和大多数流行的Linux发行版上运行。此外,Kangas可以通过Google Colab远程运行,或在任何Jupyter笔记本环境中运行。
我应该什么时候使用Kangas而不是____?
Pandas
Kangas和Pandas是互补的工具。当您将数据整理到Pandas数据框中时,可以通过DataGrid.read_dataframe()
方法将其导入Kangas,从而轻松地可视化和探索您的表格数据。此外,如果您的数据太大而无法在Pandas中处理,或者涉及多媒体资产,Kangas是一个强大的替代品。
Tensorboard
TensorBoard是多个工具之一(包括Kangas的母公司Comet),专门用于实验管理和监控。与Kangas一样,它提供了开箱即用的图表和可视化功能,但专门设计用于分析训练工作流程。相比之下,Kangas旨在分析任何数据集。例如,即使您使用TensorBoard等工具分析训练运行,您仍然可以在训练之前使用Kangas进行数据探索分析,或在部署后进行预测分析。
Kangas与Comet的关系是什么?
Kangas由Comet的研究团队开发和维护。它最初是为需要可视化大型计算机视觉数据集的Comet用户而创建的原型,后来被独立为开源项目。Kangas始终是免费和开源软件,我们非常乐意接受社区贡献。
贡献
Kangas 最近才发布,因此我们还没有一个正式的贡献流程。如果您有想法或想做出贡献,我们建议您打开一个工单,描述您拟议的贡献,这样我们可以直接合作。我们非常喜欢与社区贡献者合作。
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。
源代码分发
构建分发
kangas-2.4.9-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 0bb179db1d6a4cc7904b499e9421e5e05356656a80022d14b1171ea22cb96086 |
|
MD5 | 1353d97e8293a82ee783de89906c4579 |
|
BLAKE2b-256 | 22a57c96812099d67364f7655b199ed55f1b936347c52ed05cc552f131d1bb79 |