PyTorch的音频生成研究库
项目描述
AudioCraft
AudioCraft是一个用于音频生成深度学习研究的PyTorch库。AudioCraft包含两个最先进AI生成模型的高质量音频的推理和训练代码:AudioGen和MusicGen。
安装
AudioCraft需要Python 3.9,PyTorch 2.1.0。要安装AudioCraft,您可以运行以下命令
# Best to make sure you have torch installed first, in particular before installing xformers.
# Don't run this if you already have PyTorch installed.
python -m pip install 'torch==2.1.0'
# You might need the following before trying to install the packages
python -m pip install setuptools wheel
# Then proceed to one of the following
python -m pip install -U audiocraft # stable release
python -m pip install -U git+https://git@github.com/facebookresearch/audiocraft#egg=audiocraft # bleeding edge
python -m pip install -e . # or if you cloned the repo locally (mandatory if you want to train).
我们还推荐安装ffmpeg
,无论是通过系统还是Anaconda
sudo apt-get install ffmpeg
# Or if you are using Anaconda or Miniconda
conda install "ffmpeg<5" -c conda-forge
模型
目前,AudioCraft包含以下模型的训练代码和推理代码
- MusicGen:一个最先进的可控文本到音乐模型。
- AudioGen:一个最先进的文本到声音模型。
- EnCodec:一个最先进的高保真神经网络音频编解码器。
- Multi Band Diffusion:一个与EnCodec兼容的扩散解码器。
- MAGNeT:一个最先进的非自回归文本到音乐和文本到声音模型。
训练代码
AudioCraft包含用于音频深度学习研究和开发模型训练管道的PyTorch组件。有关AudioCraft设计原则和开发自己的训练管道的说明,请参阅AudioCraft训练文档。
为了重现现有工作和使用开发的训练管道,请参考每个特定模型的说明,其中包含对配置、示例网格和模型/任务特定信息的指针以及常见问题解答。
API 文档
我们为 AudioCraft 提供了一些API 文档。
常见问题解答
训练代码是否可用?
是的!我们为EnCodec、MusicGen和Multi Band Diffusion提供了训练代码。
模型存储在哪里?
Hugging Face 将模型存储在特定位置,可以通过为 AudioCraft 模型设置AUDIOCRAFT_CACHE_DIR
环境变量来覆盖。为了更改其他 Hugging Face 模型的缓存位置,请查看Hugging Face Transformers 缓存设置文档。最后,如果您使用依赖于 Demucs 的模型(例如 musicgen-melody
)并希望更改 Demucs 的下载位置,请参阅Torch Hub 文档。
许可证
- 此存储库中的代码根据LICENSE 文件中所述的 MIT 许可证发布。
- 此存储库中的模型权重根据LICENSE_weights 文件中所述的 CC-BY-NC 4.0 许可证发布。
引用
有关 AudioCraft 的一般框架,请引用以下内容。
@inproceedings{copet2023simple,
title={Simple and Controllable Music Generation},
author={Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez},
booktitle={Thirty-seventh Conference on Neural Information Processing Systems},
year={2023},
}
在引用特定模型时,请按照模型特定 README 中的说明进行引用,例如 ./docs/MUSICGEN.md、./docs/AUDIOGEN.md 等。