将非结构化数据(文本和图像)导入结构化表格
项目描述
datasette-extract
将非结构化数据(文本和图像)导入结构化表格
安装
在Datasette相同的环境中安装此插件。
datasette install datasette-extract
配置
此插件需要一个OpenAI API密钥。
您可以使用DATASETTE_SECRETS_OPENAI_API_KEY
环境变量来设置,或者您可以将datasette-secrets插件配置为允许用户输入自己的插件并将其加密后保存到他们的数据库中。
用法
此插件提供以下功能
- 在数据库操作齿轮菜单中选择数据库时,选择“使用提取数据创建新表”以创建包含从文本或图像提取的数据的新表
- 在表操作齿轮菜单中选择“将数据提取到本表”以将数据提取到现有表中
在创建表时,您可以指定列名、类型并提供可选的提示(如日期的“YYYY-MM-DD”),以影响数据的提取方式。
在填充现有表时,您可以提供提示并选择要填充的列。
可以直接将文本粘贴到文本区域。
将PDF或文本文件拖放到文本区域中,以使用该文件的内容填充它。将提取PDF文件中的文本,但仅当文件包含文本而不是扫描图像时。
将单个图像拖放到文本区域 - 或使用图像文件输入框选择它 - 以处理图像。
权限
用户必须具有datasette-extract
权限才能使用此工具。
为了创建表,他们还需要具有create-table
权限。
要将行插入现有表格,他们需要使用insert-row
。
开发
要本地设置此插件,首先检出代码。然后创建一个新的虚拟环境
cd datasette-extract
python3 -m venv venv
source venv/bin/activate
现在安装依赖项和测试依赖项
pip install -e '.[test]'
要运行测试
pytest
项目详情
下载文件
下载适用于您的平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源分布
datasette_extract-0.1a8.tar.gz (807.6 kB 查看哈希)
构建分布
datasette_extract-0.1a8-py3-none-any.whl (816.6 kB 查看哈希)