跳转到主要内容

将非结构化数据(文本和图像)导入结构化表格

项目描述

datasette-extract

PyPI Changelog Tests License

将非结构化数据(文本和图像)导入结构化表格

安装

Datasette相同的环境中安装此插件。

datasette install datasette-extract

配置

此插件需要一个OpenAI API密钥

您可以使用DATASETTE_SECRETS_OPENAI_API_KEY环境变量来设置,或者您可以将datasette-secrets插件配置为允许用户输入自己的插件并将其加密后保存到他们的数据库中。

用法

此插件提供以下功能

  • 在数据库操作齿轮菜单中选择数据库时,选择“使用提取数据创建新表”以创建包含从文本或图像提取的数据的新表
  • 在表操作齿轮菜单中选择“将数据提取到本表”以将数据提取到现有表中

在创建表时,您可以指定列名、类型并提供可选的提示(如日期的“YYYY-MM-DD”),以影响数据的提取方式。

在填充现有表时,您可以提供提示并选择要填充的列。

可以直接将文本粘贴到文本区域。

将PDF或文本文件拖放到文本区域中,以使用该文件的内容填充它。将提取PDF文件中的文本,但仅当文件包含文本而不是扫描图像时。

将单个图像拖放到文本区域 - 或使用图像文件输入框选择它 - 以处理图像。

权限

用户必须具有datasette-extract权限才能使用此工具。

为了创建表,他们还需要具有create-table权限。

要将行插入现有表格,他们需要使用insert-row

开发

要本地设置此插件,首先检出代码。然后创建一个新的虚拟环境

cd datasette-extract
python3 -m venv venv
source venv/bin/activate

现在安装依赖项和测试依赖项

pip install -e '.[test]'

要运行测试

pytest

项目详情


下载文件

下载适用于您的平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分布

datasette_extract-0.1a8.tar.gz (807.6 kB 查看哈希)

上传时间

构建分布

datasette_extract-0.1a8-py3-none-any.whl (816.6 kB 查看哈希)

上传时间 Python 3

由以下支持

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误日志 StatusPage StatusPage 状态页面