Lance列格式Python包装器

这些详情尚未由PyPI 验证

项目描述

Python绑定Lance数据格式

:warning: 正在积极开发

Lance Logo

Lance是一种用于数据科学和机器学习的新列式数据格式

为什么你应该使用Lance

在点查询和常见于DS/ML的嵌套数据结构方面，Lance的速度比Parquet快一个数量级
包含快速向量索引，提供亚毫秒级最近邻搜索性能
自动版本控制，支持溯源和时间旅行，实现完全可重复性
已与duckdb/pandas/polars集成。仅需两行代码即可轻松转换为/from parquet

快速开始

安装

pip install pylance

请确保您拥有最新版本的pandas（1.5+）、pyarrow（10.0+）和DuckDB（0.7.0+）

转换为Lance

import lance

import pandas as pd
import pyarrow as pa
import pyarrow.dataset

df = pd.DataFrame({"a": [5], "b": [10]})
uri = "/tmp/test.parquet"
tbl = pa.Table.from_pandas(df)
pa.dataset.write_dataset(tbl, uri, format='parquet')

parquet = pa.dataset.dataset(uri, format='parquet')
lance.write_dataset(parquet, "/tmp/test.lance")

读取Lance数据

dataset = lance.dataset("/tmp/test.lance")
assert isinstance(dataset, pa.dataset.Dataset)

Pandas

df = dataset.to_table().to_pandas()

DuckDB

import duckdb

# If this segfaults, make sure you have duckdb v0.7+ installed
duckdb.query("SELECT * FROM dataset LIMIT 10").to_df()

向量搜索

下载sift1m子集

wget ftp://ftp.irisa.fr/local/texmex/corpus/sift.tar.gz
tar -xzf sift.tar.gz

将其转换为Lance

import lance
from lance.vector import vec_to_table
import numpy as np
import struct

nvecs = 1000000
ndims = 128
with open("sift/sift_base.fvecs", mode="rb") as fobj:
    buf = fobj.read()
    data = np.array(struct.unpack("<128000000f", buf[4 : 4 + 4 * nvecs * ndims])).reshape((nvecs, ndims))
    dd = dict(zip(range(nvecs), data))

table = vec_to_table(dd)
uri = "vec_data.lance"
sift1m = lance.write_dataset(table, uri, max_rows_per_group=8192, max_rows_per_file=1024*1024)

构建索引

sift1m.create_index("vector",
                    index_type="IVF_PQ", 
                    num_partitions=256,  # IVF
                    num_sub_vectors=16)  # PQ

搜索数据集

# Get top 10 similar vectors
import duckdb

dataset = lance.dataset(uri)

# Sample 100 query vectors. If this segfaults, make sure you have duckdb v0.7+ installed
sample = duckdb.query("SELECT vector FROM dataset USING SAMPLE 100").to_df()
query_vectors = np.array([np.array(x) for x in sample.vector])

# Get nearest neighbors for all of them
rs = [dataset.to_table(nearest={"column": "vector", "k": 10, "q": q})      
      for q in query_vectors]

*更多距离度量、HNSW和分布式支持正在规划中

Python包详细信息

从PyPI安装：pip install pylance # >=0.3.0是新的基于Rust的实现

通过：import lance导入

Python集成是通过pyo3和自定义Python代码完成的

我们使用Rust为Dataset/Scanner/RecordBatchReader创建包装类，这些类暴露给Python。
然后，它们被用于LanceDataset / LanceScanner实现，这些实现扩展了pyarrow Dataset/Scanner以兼容DuckDB。
数据通过Arrow C数据接口传递

动机

我们为什么需要一个新的数据科学和机器学习格式？

1. 可重复性是必需的

版本控制和实验支持应内置到数据集中，而不是需要多个工具。
它还应该是高效的，不需要每次创建新版本时都进行昂贵的复制。
我们称这为Lance中的“零拷贝版本控制”。它使得版本控制数据变得容易，而不会增加存储成本。

2. 云存储现在是默认的

对于数据科学和机器学习，远程对象存储现在是默认的，而云的性能特性是根本不同的。
Lance格式针对云原生进行了优化。使用Lance比Parquet快一个数量级，特别是对于ML数据，常见的操作如过滤后取数据。

3. 向量必须是第一公民，而不是一个单独的东西

大多数合理的规模工作流程不应需要额外的复杂性和成本，仅为了计算向量相似性就需要专门的数据库。Lance将优化的向量索引集成到列式格式中，因此不需要额外的基础设施来获得低延迟的top-K相似度搜索。

4. 开放标准是必需的

DS/ML生态系统非常丰富，数据必须在不同的语言、工具和环境之间轻松访问。Lance将Apache Arrow集成作为其主接口，这意味着转换到/from只需要两行代码，转换后您的代码不需要更改，而且没有任何东西被锁定以强制您为供应商的计算付费。我们需要开源，而不是假开源。

项目详情

这些详情尚未由PyPI 验证

发布历史发布通知 | RSS源

此版本

0.18.2

2024年10月4日

0.18.0

2024年9月16日

0.17.0

2024年9月5日

0.16.1

2024年8月9日

0.16.0

2024年8月5日

0.15.0

2024年7月25日

0.14.1

2024年7月12日

0.14.0

2024年7月6日

0.13.0

2024年6月24日

0.12.3

2024年6月19日

0.12.2

2024年6月13日

0.12.1

2024年6月5日

0.12.0

2024年6月4日

0.11.1

2024年5月29日

0.11.0

2024年5月21日

0.10.18

2024年5月9日

0.10.17

2024年5月1日

0.10.16

2024年4月26日

0.10.15

2024年4月18日

0.10.14

2024年4月18日

0.10.13

2024年4月16日

0.10.12

2024年4月12日

0.10.11

2024年4月11日

0.10.10

2024年4月8日

0.10.9

2024年4月4日

0.10.8

2024年4月3日

0.10.7

2024年4月2日

0.10.6

2024年4月1日

0.10.5

2024年3月20日

0.10.4

2024年3月16日

0.10.3

2024年3月12日

0.10.2

2024年3月4日

0.10.1

2024年2月28日

0.10.0

2024年2月27日

0.9.19

2024年2月26日

0.9.18

2024年2月19日

0.9.17

2024年2月14日

0.9.16

2024年2月14日

0.9.15

2024年2月9日

0.9.14

2024年2月7日

0.9.13

2024年2月6日

0.9.12

2024年2月2日

0.9.11

2024年1月31日

0.9.10

2024年1月27日

0.9.9

2024年1月24日

0.9.8

2024年1月19日

0.9.7

2024年1月18日

0.9.6

2024年1月11日

0.9.5

2024年1月8日

0.9.4

2024年1月5日

0.9.3

2024年1月4日

0.9.2

2023年12月30日

0.9.1

2023年12月20日

0.9.0

2023年12月17日

0.8.21

2023年12月13日

0.8.20

2023年12月8日

0.8.19

2023年12月6日

0.8.18

2023年11月30日

0.8.17

2023年11月18日

0.8.16

2023年11月16日

0.8.15

2023年11月16日

0.8.14

2023年11月7日

0.8.13

2023年11月7日

0.8.12

2023年11月6日

0.8.11

2023年11月2日

0.8.10

2023年11月1日

0.8.9

2023年10月31日

0.8.8

2023年10月26日

0.8.7

2023年10月23日

0.8.6

2023年10月19日

0.8.5

2023年10月13日

0.8.4

2023年10月11日

0.8.3

2023年10月5日

0.8.2

2023年10月4日

0.8.1

2023年10月3日

0.8.0

2023年9月28日

0.7.5

2023年9月19日

0.7.4

2023年9月14日

0.7.3

2023年9月7日

0.7.2

2023年9月7日

0.7.1

2023年9月7日

0.7.0

2023年8月31日

0.6.5

2023年8月23日

0.6.4

2023年8月22日

0.6.3

2023年8月22日

0.6.2

2023年8月14日

0.6.1

2023年8月12日

0.6.0

2023年8月4日

0.5.10

2023年7月27日

0.5.9

2023年7月20日

0.5.8

2023年7月17日

0.5.7

2023年7月14日

0.5.6

2023年7月14日

0.5.5

2023年7月11日

0.5.4

2023年7月11日

0.5.3

2023年7月4日

0.5.2

2023年6月28日

0.5.1

2023年6月26日

0.5.0

2023年6月23日

0.4.21

2023年6月13日

0.4.20

2023年6月8日

0.4.19

2023年6月6日

0.4.18

2023年6月1日

0.4.17

2023年5月31日

0.4.16

2023年5月29日

0.4.15

2023年5月25日

0.4.14

2023年5月22日

0.4.13

2023年5月18日

0.4.12

2023年5月15日

0.4.11

2023年5月15日

0.4.10

2023年5月12日

0.4.9

2023年5月11日

0.4.8

2023年5月10日

0.4.7

2023年5月9日

0.4.6

2023年5月5日

0.4.5

2023年5月4日

0.4.4

2023年4月25日

0.4.3

2023年4月20日

0.3.19

2023年3月27日

0.3.18

2023年3月24日

0.3.17

2023年3月22日

0.3.16

2023年3月18日

0.3.15

2023年3月16日

0.3.14

2023年3月15日

0.3.13

2023年3月10日

0.3.12

2023年3月8日

0.3.11

2023年3月7日

0.3.10

2023年3月1日

0.3.9

2023年2月25日

0.3.8

2023年2月24日

0.3.7

2023年2月18日

0.3.6

2023年2月16日

0.3.5

2023年2月15日

0.3.4

2023年2月14日

0.3.3 已撤销

2023年2月12日

撤销此版本的原因

部署中的错误

0.3.2

2023年2月10日

0.3.1

2023年2月6日

0.3.0

2023年2月2日

0.2.9

2023年1月16日

0.2.8

2022年12月24日

0.2.7

2022年12月19日

0.2.6

2022年12月13日

0.2.5

2022年12月2日

0.2.4

2022年11月28日

0.2.3

2022年11月16日

0.2.2

2022年11月9日

0.2.2.dev0 预发布版

2022年11月4日

0.2.1

2022年11月4日

0.2.0

2022年11月2日

0.1.5

2022年10月28日

0.1.4

2022年10月16日

0.1.3

2022年10月9日

0.1.2

2022年10月4日

0.1.1

2022年9月29日

0.1.0

2022年9月27日

0.0.5

2022年8月30日

0.0.4

2022年8月23日

0.0.3

2022年8月5日

0.0.2 已撤销

2022年8月4日

撤销此版本的原因

构建问题

下载文件

下载适合您平台的文件。如果您不确定选择哪个，请了解更多关于安装包的信息。

源代码分发

此版本没有提供源代码分发文件。请参阅生成分发存档的教程。

构建分发

pylance-0.18.2-cp39-abi3-win_amd64.whl (28.1 MB 查看哈希值)

上传于 2024年10月4日 CPython 3.9+ Windows x86-64

pylance-0.18.2-cp39-abi3-manylinux_2_28_x86_64.whl (30.0 MB 查看哈希值)

上传于 2024年10月4日 CPython 3.9+ manylinux: glibc 2.28+ x86-64

pylance-0.18.2-cp39-abi3-manylinux_2_24_aarch64.whl (29.2 MB 查看哈希值)

上传于 2024年10月4日 CPython 3.9+ manylinux: glibc 2.24+ ARM64

pylance-0.18.2-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (30.1 MB 查看哈希值)

上传于 2024年10月4日 CPython 3.9+ manylinux: glibc 2.17+ x86-64

pylance-0.18.2-cp39-abi3-macosx_11_0_arm64.whl (26.3 MB 查看哈希值)

上传于 2024年10月4日 CPython 3.9+ macOS 11.0+ ARM64

pylance-0.18.2-cp39-abi3-macosx_10_15_x86_64.whl (28.3 MB 查看哈希值)

上传于 2024年10月4日 CPython 3.9+ macOS 10.15+ x86-64

pylance-0.18.2-cp39-abi3-win_amd64.whl的哈希值

pylance-0.18.2-cp39-abi3-win_amd64.whl的哈希值
算法	哈希摘要
SHA256	`72796676d7647ba9f6e86531daf67880f5e69ba8f842e237ad0c1ca419c6378c`
MD5	`0cf8d28b4db6c4b7042a0d02d51ea738`
BLAKE2b-256	`811b9dcb3d95fd08b2a2ce7f972a3dce25551b29a9fd0e1ee22e39d8bec36b3e`

pylance-0.18.2-cp39-abi3-manylinux_2_28_x86_64.whl的哈希值

pylance-0.18.2-cp39-abi3-manylinux_2_28_x86_64.whl的哈希值
算法	哈希摘要
SHA256	`a913920f591d8404c46c74e3911fe0c29d47b923b9c3c7e521d3354c1663d812`
MD5	`a86708e3aa38b434390ace5df04fb647`
BLAKE2b-256	`0540648f74da0449699b40792b7b9d6db8aedc80fa4e25c61e1f75a8299ec8c5`

pylance-0.18.2-cp39-abi3-manylinux_2_24_aarch64.whl的哈希值

pylance-0.18.2-cp39-abi3-manylinux_2_24_aarch64.whl的哈希值
算法	哈希摘要
SHA256	`f37fb7ad0e53076c731014c210a45919f3b2620c967e2f62cf8b7c26fdc9aace`
MD5	`81c9180fc2c9b04d7093277576903a85`
BLAKE2b-256	`05c083519992d4a56989fc37fa4baf00ba8c5c8f3bea0cc83a85359751572d64`

pylance-0.18.2-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl的哈希值

pylance-0.18.2-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl的哈希值
算法	哈希摘要
SHA256	`89dcf2dadee940ea86ac0b3bf7ba81c68e9774a449d8de206bc60cdc8804b853`
MD5	`45718fed2bddd5b99bbe01f302384096`
BLAKE2b-256	`0a1f4e6df8eba3c9d78bea8c0713e07ae500d837247d9697c0612720d7f048c7`

pylance-0.18.2-cp39-abi3-macosx_11_0_arm64.whl的哈希值

pylance-0.18.2-cp39-abi3-macosx_11_0_arm64.whl的哈希值
算法	哈希摘要
SHA256	`c4c4049eb6a6075cef721a20dd28ccba6d89b66f13e8d20ef65a284ae1c02e30`
MD5	`f51c132bc4dc3b1a29d30889869ddbdb`
BLAKE2b-256	`da9fd8f6ed331d6d57b53616bdce1d88efe724335663ee3b6337f1412b104e42`

pylance-0.18.2-cp39-abi3-macosx_10_15_x86_64.whl的哈希值

pylance-0.18.2-cp39-abi3-macosx_10_15_x86_64.whl的哈希值
算法	哈希摘要
SHA256	`017422b058724dfbe8426c1ac42f0ede77324f3783e177cb4239dc034758b50b`
MD5	`7caaf12c23eec25942811fda1d7434c1`
BLAKE2b-256	`250a16ae3434c8747028b2adc14cf9e15982005168b173ffa7f181e62af78537`

pylance 0.18.2

导航

验证详情

维护者

未验证详情

元数据

分类器

项目描述

Python绑定Lance数据格式

快速开始

Python包详细信息

动机

1. 可重复性是必需的

2. 云存储现在是默认的

3. 向量必须是第一公民，而不是一个单独的东西

4. 开放标准是必需的

项目详情

验证详情

维护者

未验证详情

元数据

分类器

发布历史发布通知 | RSS源

下载文件

源代码分发

构建分发

pylance 0.18.2

导航

验证详情

维护者

未验证详情

元数据

分类器

项目描述

Python绑定Lance数据格式

快速开始

Python包详细信息

动机

1. 可重复性是必需的

2. 云存储现在是默认的

3. 向量必须是第一公民，而不是一个单独的东西

4. 开放标准是必需的

项目详情

验证详情

维护者

未验证详情

元数据

分类器

发布历史 发布通知 | RSS源

下载文件

源代码分发

构建分发

发布历史发布通知 | RSS源