在Datasette表中存储和查询嵌入向量
项目描述
datasette-embeddings
在Datasette表中存储和查询嵌入向量
安装
在Datasette相同环境中安装此插件。
datasette install datasette-embeddings
用法
为表中的内容添加一个增强,用于计算和存储OpenAI嵌入向量。
用户可以选择他们想要嵌入的列的嵌入模型和模板(例如 {{ title }} {{ body }}
)。
嵌入以二进制值的形式存储在新表_embeddings_NAME
的列中,其中NAME
是原始源表名称。
向量存储在匹配嵌入模型名称的列中,例如,对于text-embedding-3-large-256
模型,存储在emb_text_embedding_3_large_256
列中。
如果您没有配置OpenAI API密钥,用户在运行增强时将被要求提供一个。
您可以使用如下插件配置来设置API密钥
plugins:
datasette-embeddings:
api_key:
$env: OPENAI_API_KEY
然后在启动Datasette之前设置OPENAI_API_KEY
环境变量。
此插件为具有嵌入的表添加了“针对此表进行语义搜索”的表操作项,但前提是已配置API密钥环境变量,因为需要使用该密钥来计算用户的搜索查询的嵌入。
开发
要本地设置此插件,首先检出代码。然后创建一个新的虚拟环境
cd datasette-embeddings
python3 -m venv venv
source venv/bin/activate
现在安装依赖关系和测试依赖关系
pip install -e '.[test]'
要运行测试
pytest
测试使用捕获的嵌入API示例。重新生成这些示例的最简单方法是执行以下操作
rm -rf tests/cassettes
以删除之前的记录export OPENAPI_API_KEY='...'
用于设置 OpenAI API 密钥pytest --record-mode once
用于重新创建测试快照
项目详情
下载文件
下载适用于您的平台的文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。
源代码分发
datasette-embeddings-0.1a3.tar.gz (12.5 kB 查看哈希值)
构建分发
关闭
datasette-embeddings-0.1a3.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 342fb1ffc3136e009794337f5c0fa4095a1d9201bf65e26a083428b91860c4f6 |
|
MD5 | 101a0fbbe8c8b2d4923d0cf62fd8057d |
|
BLAKE2b-256 | 961ae54cffc0906915ca3a587c0d4db1860e2a08311753093259563dd6012095 |
关闭
datasette_embeddings-0.1a3-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 016feffe56ffeb8908f8897e049436e80631a93a29acefa062e0d4029d7ec7ee |
|
MD5 | 258d577270d2ad27e2bddaf1b60418a3 |
|
BLAKE2b-256 | 1813ce89669790c0ce923001645fb0e7a3f6ca94413df427ed40ea5b6cd671fc |