跳转到主要内容

OS-Climate 数据提取工具

项目描述

💬 重要

2024年6月26日,Linux基金会宣布将其金融服务伞下的金融科技开源基金会(FINOS https://finos.org)与专注于构建数据技术、建模和分析工具的OS-Climate(开源社区)合并;这些工具将推动全球资本流向气候变化缓解和韧性建设;OS-Climate项目正在过渡到FINOS治理框架https://community.finos.org/docs/governance;更多详情请访问finos.org/press/finos-join-forces-os-open-source-climate-sustainability-esg https://finos.org/press/finos-join-forces-os-open-source-climate-sustainability-esg

OSC Transformer 预步骤

An OS-Climate Project Join OS-Climate on Slack Source code on GitHub PyPI package Build Status Built using PDM Project generated with PyScaffold

OS-Climate Transformer 预步骤工具

此代码为您提供一个cli工具,可以提取pdf数据到json文档,并创建用于在transformer模型中提取相关信息的训练数据集,但也可以独立使用。

快速开始

通过PyPi安装

您可以通过以下方式简单安装此包

$ pip install osc-transformer-presteps

之后,您可以通过键入以下命令将工具用作CLI工具

$ osc-transformer-presteps

我们使用Typer提供用户友好的CLI。所有详细信息和使用说明都将在CLI中显示,这里不做更详细描述。

示例 1:从PDF中提取数据

假设文件夹结构如下

project/
├-input/
│ ├-file_1.pdf
│ ├-file_2.pdf
│ └─file_3.pdf
├-logs/
└─output/

现在,安装osc-transformer-presteps后,运行以下命令将数据从PDF提取到JSON

$ osc-transformer-presteps extraction run-local-extraction 'input' --output-folder='output' --logs-folder='logs' --force

注意:--force标志可以克服加密。请检查在您的司法管辖区这是否是合法行为。

示例 2:制作新的训练数据集

要执行编辑,您需要一个KPI映射文件和一个注释文件。以下是一些此类文件的示例

KPI映射文件:

kpi_mapping.csv

kpi_id

问题

行业

添加年份

kpi类别

0

公司名称是什么?

“OG, CM, CU”

FALSE

TEXT

  • kpi_id:每个KPI的唯一标识符。

  • 问题:要提取相关信息的具体问题。

  • 行业:KPI适用的行业。

  • 添加年份:指示是否在提取的数据中包含年份(TRUE/FALSE)。

  • kpi类别:KPI的类别,通常指定数据类型(例如,TEXT)。

注释文件:

annotations_file.xlsx

公司

源文件

源页面

kpi_id

年份

答案

数据类型

相关段落

注释者

行业

荷兰皇家壳牌公司

Test.pdf

[1]

1

2019

2019

TEXT

["2019年可持续发展报告"]

1qbit_edited_kpi_extraction_Carolin.xlsx

OG

  • 公司:正在分析的公司名称。

  • 源文件:提取数据的文档。

  • 源页面:包含相关信息的页面号。

  • kpi_id:与数据关联的KPI的ID。

  • 年份:数据所指的年份。

  • 答案:提取的具体数据或文本。

  • 数据类型:提取数据的数据类型(例如,TEXT或TABLE)。

  • 相关段落:找到数据所在的段落或上下文。

  • 注释者:执行注释的人员或工具。

  • 行业:公司所属的行业。

您可以在demo/curation/input文件夹中找到示例文件。

假设文件夹结构如下

project/
├-input/
│ ├-data_from_extraction/
│ │ ├-file_1.json
│ │ ├-file_2.json
│ │ └─file_3.json
│ ├-kpi_mapping/
│ │ └─kpi_mapping.csv
│ ├-annotations_file/
│ │ └─annotations_file.xlsx
├-logs/
└─output/

现在,您可以通过以下命令制作新的训练数据集

$ osc-transformer-presteps curation run-local-curation 'input/-data_from_extraction/file_1.json' 'input/annotations_file/annotations_file.xlsx' 'input/kpi_mapping/kpi_mapping.csv'

注意:由于斜杠,运行在不同的机器(如Windows)上时,之前的注释可能需要一些调整。

关于注释的重要注意事项

在进行审校时,确保所有用于此过程的JSON文件都列在 demo/curation/input/test_annotation.xlsx 文件中至关重要。如果这些文件未包含在注解文件中,将导致输出结果损坏。

确保在注解文件中提及所有参与审校过程的JSON文件,以保持输出结果的完整性。

开发者空间

通过GitHub仓库直接使用代码,无需CLI

首先,将仓库克隆到您的本地环境中

$ git clone https://github.com/os-climate/osc-transformer-presteps

我们使用 pdm 来管理包和 tox 来提供稳定的测试框架。首先,通过以下方式安装 pdm(可能是在虚拟环境中):

$ pip install pdm

之后,通过以下方式同步您的系统:

$ pdm sync

您将在 demo 文件夹中找到多个演示如何进行操作的示例。

pdm

要添加新依赖项,请使用 pdm。例如,您可以通过以下方式添加 numpy:

$ pdm add numpy

有关更详细的信息,请参阅 PDM 项目主页

tox

为了运行代码检查工具,我们使用 tox。您可以在虚拟环境外运行此命令

$ pip install tox
$ tox -e lint
$ tox -e test

这将自动对您的代码进行检查并运行提供的 pytests。有关更多详细信息,请参阅 tox

项目详情


下载文件

下载适合您平台的应用程序文件。如果您不确定选择哪个,请了解更多关于 安装包 的信息。

源分布

osc_transformer_presteps-0.1.3.tar.gz (2.1 MB 查看哈希值

上传时间

构建分布

osc_transformer_presteps-0.1.3-py3-none-any.whl (31.2 kB 查看哈希值

上传时间 Python 3

支持者

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面