OS-Climate 数据提取工具
项目描述
💬 重要
2024年6月26日,Linux基金会宣布将其金融服务伞下的金融科技开源基金会(FINOS https://finos.org)与专注于构建数据技术、建模和分析工具的OS-Climate(开源社区)合并;这些工具将推动全球资本流向气候变化缓解和韧性建设;OS-Climate项目正在过渡到FINOS治理框架https://community.finos.org/docs/governance;更多详情请访问finos.org/press/finos-join-forces-os-open-source-climate-sustainability-esg https://finos.org/press/finos-join-forces-os-open-source-climate-sustainability-esg
OSC Transformer 预步骤
OS-Climate Transformer 预步骤工具
此代码为您提供一个cli工具,可以提取pdf数据到json文档,并创建用于在transformer模型中提取相关信息的训练数据集,但也可以独立使用。
快速开始
通过PyPi安装
您可以通过以下方式简单安装此包
$ pip install osc-transformer-presteps
之后,您可以通过键入以下命令将工具用作CLI工具
$ osc-transformer-presteps
我们使用Typer提供用户友好的CLI。所有详细信息和使用说明都将在CLI中显示,这里不做更详细描述。
示例 1:从PDF中提取数据
假设文件夹结构如下
project/
├-input/
│ ├-file_1.pdf
│ ├-file_2.pdf
│ └─file_3.pdf
├-logs/
└─output/
现在,安装osc-transformer-presteps后,运行以下命令将数据从PDF提取到JSON
$ osc-transformer-presteps extraction run-local-extraction 'input' --output-folder='output' --logs-folder='logs' --force
注意:--force标志可以克服加密。请检查在您的司法管辖区这是否是合法行为。
示例 2:制作新的训练数据集
要执行编辑,您需要一个KPI映射文件和一个注释文件。以下是一些此类文件的示例
KPI映射文件:
kpi_id |
问题 |
行业 |
添加年份 |
kpi类别 |
---|---|---|---|---|
0 |
公司名称是什么? |
“OG, CM, CU” |
FALSE |
TEXT |
kpi_id:每个KPI的唯一标识符。
问题:要提取相关信息的具体问题。
行业:KPI适用的行业。
添加年份:指示是否在提取的数据中包含年份(TRUE/FALSE)。
kpi类别:KPI的类别,通常指定数据类型(例如,TEXT)。
注释文件:
公司 |
源文件 |
源页面 |
kpi_id |
年份 |
答案 |
数据类型 |
相关段落 |
注释者 |
行业 |
---|---|---|---|---|---|---|---|---|---|
荷兰皇家壳牌公司 |
Test.pdf |
[1] |
1 |
2019 |
2019 |
TEXT |
["2019年可持续发展报告"] |
1qbit_edited_kpi_extraction_Carolin.xlsx |
OG |
公司:正在分析的公司名称。
源文件:提取数据的文档。
源页面:包含相关信息的页面号。
kpi_id:与数据关联的KPI的ID。
年份:数据所指的年份。
答案:提取的具体数据或文本。
数据类型:提取数据的数据类型(例如,TEXT或TABLE)。
相关段落:找到数据所在的段落或上下文。
注释者:执行注释的人员或工具。
行业:公司所属的行业。
您可以在demo/curation/input文件夹中找到示例文件。
假设文件夹结构如下
project/
├-input/
│ ├-data_from_extraction/
│ │ ├-file_1.json
│ │ ├-file_2.json
│ │ └─file_3.json
│ ├-kpi_mapping/
│ │ └─kpi_mapping.csv
│ ├-annotations_file/
│ │ └─annotations_file.xlsx
├-logs/
└─output/
现在,您可以通过以下命令制作新的训练数据集
$ osc-transformer-presteps curation run-local-curation 'input/-data_from_extraction/file_1.json' 'input/annotations_file/annotations_file.xlsx' 'input/kpi_mapping/kpi_mapping.csv'
注意:由于斜杠,运行在不同的机器(如Windows)上时,之前的注释可能需要一些调整。
关于注释的重要注意事项
在进行审校时,确保所有用于此过程的JSON文件都列在 demo/curation/input/test_annotation.xlsx 文件中至关重要。如果这些文件未包含在注解文件中,将导致输出结果损坏。
确保在注解文件中提及所有参与审校过程的JSON文件,以保持输出结果的完整性。
开发者空间
通过GitHub仓库直接使用代码,无需CLI
首先,将仓库克隆到您的本地环境中
$ git clone https://github.com/os-climate/osc-transformer-presteps
我们使用 pdm 来管理包和 tox 来提供稳定的测试框架。首先,通过以下方式安装 pdm(可能是在虚拟环境中):
$ pip install pdm
之后,通过以下方式同步您的系统:
$ pdm sync
您将在 demo 文件夹中找到多个演示如何进行操作的示例。
pdm
要添加新依赖项,请使用 pdm。例如,您可以通过以下方式添加 numpy:
$ pdm add numpy
有关更详细的信息,请参阅 PDM 项目主页。
tox
为了运行代码检查工具,我们使用 tox。您可以在虚拟环境外运行此命令
$ pip install tox $ tox -e lint $ tox -e test
这将自动对您的代码进行检查并运行提供的 pytests。有关更多详细信息,请参阅 tox。
项目详情
osc_transformer_presteps-0.1.3.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 1a91dea66b572c9a58ed64c0695a133f1b27978f3bec10c37fd8623999738309 |
|
MD5 | 1a18e18310a98e0653e23a5bce714f6a |
|
BLAKE2b-256 | 0737546e968aed0f8f9d72606361f60ad1f9d63b88fca9cd0b34e6066dbe7aac |
osc_transformer_presteps-0.1.3-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | f309a2b2c82819527e8f3c80b512ffbd440ee280246ce121e212ed1abe04d8ca |
|
MD5 | c625aa1ef2febd6c223e88395698240b |
|
BLAKE2b-256 | 89997234fc2154b69942495b8ca138bde3e53325b3c1244c74b5c373f0a1dbf7 |