跳转到主要内容

在罗曼语系中对电子邮件内容进行匿名化

项目描述

mailcom

用于从电子邮件文本(eml文件)中解析电子邮件正文,并仅保留文本的工具,删除了名称,适用于法语和西班牙语电子邮件。

安装

使用以下命令安装
python -m pip install mailcom

您还需要使用提供的脚本来下载spaCy和Stanza的法国和西班牙语模型 - 在终端中运行此命令

./get-models.sh

有关可用语言和模型的概述,请查看spaCy网站。

用法

该软件包使用spaCy进行句子分割,基于默认语言模型,并使用transformers进行NER识别。目前,您必须在parse.py顶部手动设置语言和eml文件目录;默认目录为data/in。然后运行python parse.py。运行后,输出可以在data/out中找到。

项目详细信息


下载文件

下载适合您的平台的文件。如果您不确定要选择哪个,请了解更多关于安装包的信息。

源分布

mailcom-0.0.1.tar.gz (6.0 kB 查看散列)

上传于 源文件

构建的发行版

mailcom-0.0.1-py3-none-any.whl (5.8 kB 查看哈希值)

上传于 Python 3

由以下支持