该项目旨在赋能希望在“亲爱的日记”背景下处理数据并执行自身分析的用户。
项目描述
葡萄牙语 (BR) | 英语 (US)
工具箱
在“亲爱的日记”生态系统中,此仓库提供了一组用于让社区使用项目资源进行自身分析和处理的工具。
此库提供了不同级别的抽象来处理数据,从简单的文本清理到将不同格式的文件转换为纯文本。
在技术和历史方面了解更多关于该项目的信息,请访问“亲爱的日记”网站
摘要
如何贡献
感谢您考虑为“亲爱的日记”做出贡献! :tada
您可以在CONTRIBUTING.md中找到如何操作!
此外,请参阅《亲爱的日记》文档以获得帮助。
如何执行
要使用 querido-diario-toolbox
,您需要安装 Python(3.8+),Tesseract OCR,Apache Tika的.jar
文件(v1.24.1+)和Tabula(v1.0.4+)。
- 要安装
querido-diario-toolbox
库,只需打开终端并运行以下命令:
$ pip install querido-diario-toolbox
- 使用时,请在Python代码中导入该库。
使用示例
更详细的示例可在./examples
文件夹中找到。您可以使用Jupyter笔记本查看(如果您愿意,还可以与之交互)。
移除文本中的多余空格
In [1]: from querido_diario_toolbox.process.text_process import remove_breaks
In [2]: texto = "\n\n\nEste texto tem vários espaços em branco\n\n \ndesnecessários.\n"
In [3]: remove_breaks(texto)
Out[3]: 'Este texto tem vários espaços em branco desnecessários.'
在文本中查找有效的CNPJ
In [1]: from querido_diario_toolbox.process.edition_process import extract_and_validate_cnpj
In [2]: texto = "As empresas de CNPJ válidos 00.000.000/0001-91 e 00.360.305/0001-04 existem mas a de CNPJ 12.123.123/1234.12 não existe..."
In [3]: extract_and_validate_cnpj(texto)
Out[3]: ['00.000.000/0001-91', '00.360.305/0001-04']
将封闭格式的文件转换为纯文本并提取元数据
In [1]: from querido_diario_toolbox import Gazette
...: from querido_diario_toolbox.etl.text_extractor import create_text_extractor
In [2]: config = {"apache_tika_jar": "caminho/apache/tika/jar/tika-app-1.24.1.jar"}
...: extrator = create_text_extractor(config)
In [3]: diario = Gazette(filepath="caminho/diario/fechado/diario.pdf")
In [4]: extrator.extract_text(diario)
...: extrator.extract_metadata(diario)
...: extrator.load_content(diario)
执行extrator.load_content(diario)
后,将创建两个文件(一个包含纯文本的.txt
文件和一个包含元数据的.json
文件)。
更多信息:有关querido-diario-toolbox库的完整信息,请访问其文档
支持
加入我们的社区频道,交流项目、提问、寻求帮助和贡献,并讨论一般性的公民创新。
感谢
该项目由Open Knowledge Brasil维护,并得益于技术社区、公民创新大使、志愿者和财务捐助者,以及合作伙伴大学、支持企业和资助机构。
了解支持《亲爱的日记》的人。
Open Knowledge Brasil
Open Knowledge Brasil是一个非营利性民间组织,其使命是利用和开发公民工具、项目、公共政策分析、数据新闻学来促进社会各领域的自由知识。
OKBR生产的所有工作都是免费提供的。
许可协议
代码根据MIT许可证许可。
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。
源分布
构建分布
querido-diario-toolbox-0.2.2.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 405804b299ab55ebf14ad5c5de42bc80d0bf8e159ee1e453f57770173aa9b9b4 |
|
MD5 | 022488d884f6f24e5d087ac92c09ad52 |
|
BLAKE2b-256 | 971382777aa9c39111e243fc2dd4d78386cfa3d2ce834b865067a9347ba22cf1 |
哈希值 用于 querido_diario_toolbox-0.2.2-py2.py3-none-any.whl
算法 | 哈希摘要 | |
---|---|---|
SHA256 | d8e83c445d820d369db8cf0b38b43c88030639431e1ef9cd94f4f36255c63bf0 |
|
MD5 | cb74562d21bcbbcd55b77b8a7537ea51 |
|
BLAKE2b-256 | 705a9b89934a48f842f1d36b62db5f401fc85d23ad4b257bea2b031e1669cc9f |