跳转到主要内容

用于探索包括多媒体在内的列数据工具

项目描述



PyPI version GitHub Kangas Live Demo Kangas Documentation Downloads DOI

Kangas:大规模探索多媒体数据集 :kangaroo

Kangas是一个用于探索、分析和可视化大规模多媒体数据的工具。它提供了一个简单的Python API,用于记录大量数据表,并提供一个直观的视觉界面,用于对您的数据集执行复杂查询。

Kangas的关键特性包括:

  • 可扩展性。Kangas DataGrid(表示数据集的基本类)可以轻松存储数百万行数据。
  • 性能。通过简单快速的UI,在数百万个数据点上分组、排序和过滤仅需几秒钟。
  • 互操作性。任何数据,任何环境。Kangas可以在笔记本或作为独立应用程序中运行,本地和远程均可。
  • 集成计算机视觉支持。无需额外设置即可可视化并过滤边界框、标签和元数据。

您可以在 kangas.comet.com 访问Kangas的实时演示。

入门指南

Kangas可以通过pip作为Python库访问

pip install kangas

安装后,有多种方式可以加载或创建DataGrid。

即使不编写任何代码,您也可以下载DataGrid并开始探索数据。在控制台

kangas server https://github.com/caleb-kaiser/kangas_examples/raw/master/coco-500.datagrid.zip

就这样!

在下一个示例中,我们加载一个公开可用的DataGrid文件,但Kangas API还提供了导入CSV、Pandas DataFrames以及手动构建新DataGrid的方法

import kangas as kg

# Load an existing DataGrid
dg = kg.read_datagrid("https://github.com/caleb-kaiser/kangas_examples/raw/master/coco-500.datagrid.zip")

初始化DataGrid后,您可以直接从Python在Kangas Viewer中渲染它

dg.show()
image

从Kangas查看器中,您可以对数据进行分组、排序和筛选。此外,Kangas会尽力解析附加到您的资产上的任何元数据。例如,如果您使用上面快速入门中的COCO-500数据网格,Kangas将自动解析每张图片的标签和得分。

现在您已经开始使用Kangas了!

Pandas数据框

Kangas还可以直接读取Pandas数据框对象。

import kangas as kg
import pandas as pd

df = pd.DataFrame({"hidden_layer_size": [8, 16, 64], "loss": [0.97, 0.53, 0.12]})
dg = kg.read_dataframe(df)

HuggingFace数据集

由于HuggingFace数据集使用字典行,并且图像由PIL图像表示,因此可以直接将其加载到数据网格中。数据网格会自动将PIL图像转换为Kangas图像

import kangas as kg
from datasets import load_dataset

dataset = load_dataset("beans", split="train")
dg = kg.DataGrid(dataset)

Parquet文件

注意:您需要安装pyarrow才能读取Parquet文件。

import kangas as kg

dg = kg.read_parquet("https://github.com/Teradata/kylo/raw/master/samples/sample-data/parquet/userdata5.parquet")

如果您想进一步探索,请查看下面的示例笔记本。

文档

  1. 文档主页
  2. 快速入门笔记本
  3. 集成笔记本
  4. MNIST分类示例

常见问题解答

Kangas已经准备好供公众使用了吗?

Kangas目前处于公开测试阶段。我们对Kangas进行了大量的压力测试,并相信可以与公众分享。尽管如此,这是一个非常年轻的项目,存在一些错误和边缘情况。此外,新功能将以较快的速度添加,因此如果您发现错误或有任何请求,请随时提交工单或开始讨论。

Kangas支持____系统?

Kangas可以作为独立应用程序在新版本的Windows、MacOS和大多数流行的Linux发行版上运行。此外,Kangas可以通过Google Colab远程运行,或在任何Jupyter笔记本环境中运行。

我应该什么时候使用Kangas而不是____?

Pandas

Kangas和Pandas是互补的工具。当您将数据整理到Pandas数据框中时,可以通过DataGrid.read_dataframe()方法将其导入Kangas,从而轻松地可视化和探索您的表格数据。此外,如果您的数据太大而无法在Pandas中处理,或者涉及多媒体资产,Kangas是一个强大的替代品。

Tensorboard

TensorBoard是多个工具之一(包括Kangas的母公司Comet),专门用于实验管理和监控。与Kangas一样,它提供了开箱即用的图表和可视化功能,但专门设计用于分析训练工作流程。相比之下,Kangas旨在分析任何数据集。例如,即使您使用TensorBoard等工具分析训练运行,您仍然可以在训练之前使用Kangas进行数据探索分析,或在部署后进行预测分析。

Kangas与Comet的关系是什么?

Kangas由Comet的研究团队开发和维护。它最初是为需要可视化大型计算机视觉数据集的Comet用户而创建的原型,后来被独立为开源项目。Kangas始终是免费和开源软件,我们非常乐意接受社区贡献。

贡献

Kangas 最近才发布,因此我们还没有一个正式的贡献流程。如果您有想法或想做出贡献,我们建议您打开一个工单,描述您拟议的贡献,这样我们可以直接合作。我们非常喜欢与社区贡献者合作。

项目详情


发布历史 发布通知 | RSS 源

下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源代码分发

此版本没有可用的源代码分发文件。请参阅 生成分发存档教程

构建分发

kangas-2.4.9-py3-none-any.whl (15.7 MB 查看哈希值)

上传时间 Python 3

支持者

AWSAWS 云计算和安全赞助商 DatadogDatadog 监控 FastlyFastly CDN GoogleGoogle 下载分析 MicrosoftMicrosoft PSF赞助商 PingdomPingdom 监控 SentrySentry 错误日志 StatusPageStatusPage 状态页面