音频、图像、文本和视频数据增强库。
项目描述
AugLy是一个数据增强库,目前支持四种模式(音频、图像、文本和视频)和超过100种增强。每种模式的增强都包含在其自己的子库中。这些子库包括基于函数和基于类的转换、组合运算符,并可以选择提供关于应用的转换的元数据,包括其强度。
AugLy 是一个用于在模型训练中增强您的数据或评估模型鲁棒性差距的出色库!我们设计了 AugLy,使其包含许多用户在实际生活中在类似 Facebook 等互联网平台上执行的具体数据增强操作,例如将图像制作成表情包,在图像/视频中叠加文本/表情符号,转发社交媒体上的截图。虽然 AugLy 也包含更多通用数据增强,但如果您正在解决复制检测、仇恨言论检测或版权侵权等问题,其中这些“互联网用户”类型的数据增强很常见,它将特别有用。
要查看更多增强示例,请打开每个模态的 README 中的 Colab 笔记本!(例如图像 README & Colab)
该库基于 Python 编写,需要至少 Python 3.6,因为我们使用数据类。
作者
Joanna Bitton — Meta AI 软件工程师
Zoe Papakipos — Meta AI 软件工程师
安装
AugLy
是一个 Python 3.6+ 库。可以使用以下命令安装
pip install augly[all]
如果您只想安装一个子库(例如音频)所需的依赖项,可以按如下方式安装
pip install augly[audio]
或者,如果您想运行我们的单元测试、提交拉取请求等,可以克隆 AugLy
git clone git@github.com:facebookresearch/AugLy.git && cd AugLy
[Optional, but recommended] conda create -n augly && conda activate augly && conda install pip
pip install -e .[all]
向后兼容性说明:在版本 augly<=0.2.1
中,我们没有按模态分开依赖项。对于这些版本,要安装大多数依赖项,可以使用 pip install augly
,如果您想使用音频或视频模态,可以使用 pip install augly[av]
安装。
在某些环境中,pip
不会像预期的那样安装 python-magic
。在这种情况下,您需要额外运行
conda install -c conda-forge python-magic
或者如果您不使用 conda
sudo apt-get install python3-magic
文档
请查看我们的 ReadtheDocs 上的文档!
有关如何使用每个子库的更多详细信息、如何运行测试以及可运行示例的 Colab 笔记本链接,请参阅每个相应目录中的 README(音频、图像、文本、& 视频)。
资产
我们提供各种媒体资产,可以与我们的某些增强操作一起使用。这些资产包括
- 表情符号 (Twemoji) - 版权所有 2020 Twitter, Inc 和其他贡献者。代码许可协议为 MIT 许可证。图形许可协议为 CC-BY 4.0。
- 字体 (Noto 字体) - Noto 是 Google Inc 的商标。Noto 字体是开源的。所有 Noto 字体均在 SIL 开源字体许可协议版本 1.1 下发布。
- 截图模板 - Facebook 的设计师专门为与 AugLy 一起使用而创建的图像。您可以使用这些模板与图像和视频库中的
overlay_onto_screenshot
增强功能一起使用,以使您的源图像/视频看起来像是类似 Facebook 或 Instagram 的社交媒体信息流中的截图。
链接
- Facebook AI 博客文章:https://ai.facebook.com/blog/augly-a-new-data-augmentation-library-to-help-build-more-robust-ai-models/
- PyPi 软件包:https://pypi.ac.cn/project/augly/
- Arxiv 论文:https://arxiv.org/abs/2201.06494
- 示例:https://github.com/facebookresearch/AugLy/tree/main/examples
AugLy 在野外的使用
- 图像相似性挑战 - Facebook AI主办的NeurIPS 2021比赛,奖金20万美元,目前正在报名;还制作了DISC21数据集,挑战结束后将公开提供!
- DeepFake检测挑战 - Facebook AI在2020年举办的Kaggle比赛,奖金100万美元;还制作了DFDC数据集
- SimSearchNet - Facebook AI开发的一种近似重复检测模型,用于识别我们平台上的侵权内容
参考文献
如果您在您的作品中使用了AugLy,请使用以下参考文献引用我们的Arxiv论文
@misc{papakipos2022augly,
author = {Zoe Papakipos and Joanna Bitton},
title = {AugLy: Data Augmentations for Robustness},
year = {2022},
eprint = {2201.06494},
archivePrefix = {arXiv},
primaryClass = {cs.AI}}
}
许可证
AugLy遵循MIT许可协议,如LICENSE文件所示。请注意,AugLy使用的某些依赖项可能遵循不同的许可条款。
项目详情
下载文件
下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。