跳转到主要内容

为ReferenceFileSystem制作参考描述的函数

项目描述

kerchunk

云友好的存档数据访问

Docs Tests Pypi Conda-forge

Kerchunk是一个库,它提供了一种统一的方式来表示多种分块、压缩的数据格式(例如NetCDF、HDF5、GRIB),允许从传统的文件系统或云对象存储中高效地访问数据。它还提供了一种灵活的方式,可以从多个文件创建虚拟数据集。它是通过提取字节数据范围、压缩信息和其他数据信息并将这些元数据存储在一个新的、独立的对象中来实现的。这意味着您可以在多个源文件上创建一个虚拟聚合数据集,以便进行高效、并行和云友好的原地访问,而无需复制或转换原始数据。它是数据提供者仍然坚持使用旧格式进行存档存储时的云内大量数据处理的大门。

为什么选择Kerchunk:

我们提供以下内容

  • 完全无服务器架构
  • 元数据合并,因此您可以通过单次读取来理解一个多文件数据集(元数据加物理存储)
  • 从fsspec支持的所有存储后端读取,包括对象存储(s3、gcs、abfs、alibaba)、http、云用户存储(dropbox、gdrive)和网络协议(ftp、ssh、hdfs、smb...)
  • 加载各种文件类型(目前为netcdf4/HDF、grib2、tiff、fits、zarr),在单个数据集中可能异构,无需通过特定驱动程序(例如,无需h5py)
  • 一次性异步并发获取多个数据块,分摊延迟成本
  • 使用zarr等库进行并行访问,无需任何锁
  • 逻辑数据集查看许多(>数百万)数据文件,并通过坐标索引在任意数量的维度上直接访问/子选择它们
logo

有关更多信息,请参阅文档

项目详情


下载文件

下载适用于您的平台文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源分发

kerchunk-0.2.6.tar.gz (749.7 kB 查看哈希值)

上传时间:

构建分发

kerchunk-0.2.6-py3-none-any.whl (134.6 kB 查看哈希值)

上传时间: Python 3

由以下支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面