在罗曼语系中对电子邮件内容进行匿名化
项目描述
mailcom
用于从电子邮件文本(eml文件)中解析电子邮件正文,并仅保留文本的工具,删除了名称,适用于法语和西班牙语电子邮件。
安装
使用以下命令安装
python -m pip install mailcom
您还需要使用提供的脚本来下载spaCy和Stanza的法国和西班牙语模型 - 在终端中运行此命令
./get-models.sh
有关可用语言和模型的概述,请查看spaCy网站。
用法
该软件包使用spaCy进行句子分割,基于默认语言模型,并使用transformers进行NER识别。目前,您必须在parse.py
顶部手动设置语言和eml文件目录;默认目录为data/in
。然后运行python parse.py
。运行后,输出可以在data/out
中找到。
项目详细信息
下载文件
下载适合您的平台的文件。如果您不确定要选择哪个,请了解更多关于安装包的信息。
源分布
mailcom-0.0.1.tar.gz (6.0 kB 查看散列)
构建的发行版
mailcom-0.0.1-py3-none-any.whl (5.8 kB 查看哈希值)
关闭
mailcom-0.0.1.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 98ee29553951d8568dec8d311f9384afc00a2a7511df6243dc3f6bb421781d88 |
|
MD5 | b8cd3aeb397d7e24e3e7f46e9e3c0476 |
|
BLAKE2b-256 | a7a1d1107ca1c4f44a1f6e7887cdc40a463439160cbca5d73a069f8b77ace4e2 |
关闭
mailcom-0.0.1-py3-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | c241a16dee6006efe29dce404e708fdc970d1b4631932a11de3f9002a91107c2 |
|
MD5 | 678736bfa20e2f53247f66e3e5154d14 |
|
BLAKE2b-256 | 6c3981f6accfc420bf220e4a51b15d3fb57f79b2f27a7ae4ba4cc076085d0b72 |