跳转到主要内容

PyTorch的音频生成研究库

项目描述

AudioCraft

docs badge linter badge tests badge

AudioCraft是一个用于音频生成深度学习研究的PyTorch库。AudioCraft包含两个最先进AI生成模型的高质量音频的推理和训练代码:AudioGen和MusicGen。

安装

AudioCraft需要Python 3.9,PyTorch 2.1.0。要安装AudioCraft,您可以运行以下命令

# Best to make sure you have torch installed first, in particular before installing xformers.
# Don't run this if you already have PyTorch installed.
python -m pip install 'torch==2.1.0'
# You might need the following before trying to install the packages
python -m pip install setuptools wheel
# Then proceed to one of the following
python -m pip install -U audiocraft  # stable release
python -m pip install -U git+https://git@github.com/facebookresearch/audiocraft#egg=audiocraft  # bleeding edge
python -m pip install -e .  # or if you cloned the repo locally (mandatory if you want to train).

我们还推荐安装ffmpeg,无论是通过系统还是Anaconda

sudo apt-get install ffmpeg
# Or if you are using Anaconda or Miniconda
conda install "ffmpeg<5" -c conda-forge

模型

目前,AudioCraft包含以下模型的训练代码和推理代码

  • MusicGen:一个最先进的可控文本到音乐模型。
  • AudioGen:一个最先进的文本到声音模型。
  • EnCodec:一个最先进的高保真神经网络音频编解码器。
  • Multi Band Diffusion:一个与EnCodec兼容的扩散解码器。
  • MAGNeT:一个最先进的非自回归文本到音乐和文本到声音模型。

训练代码

AudioCraft包含用于音频深度学习研究和开发模型训练管道的PyTorch组件。有关AudioCraft设计原则和开发自己的训练管道的说明,请参阅AudioCraft训练文档

为了重现现有工作和使用开发的训练管道,请参考每个特定模型的说明,其中包含对配置、示例网格和模型/任务特定信息的指针以及常见问题解答。

API 文档

我们为 AudioCraft 提供了一些API 文档

常见问题解答

训练代码是否可用?

是的!我们为EnCodecMusicGenMulti Band Diffusion提供了训练代码。

模型存储在哪里?

Hugging Face 将模型存储在特定位置,可以通过为 AudioCraft 模型设置AUDIOCRAFT_CACHE_DIR环境变量来覆盖。为了更改其他 Hugging Face 模型的缓存位置,请查看Hugging Face Transformers 缓存设置文档。最后,如果您使用依赖于 Demucs 的模型(例如 musicgen-melody)并希望更改 Demucs 的下载位置,请参阅Torch Hub 文档

许可证

  • 此存储库中的代码根据LICENSE 文件中所述的 MIT 许可证发布。
  • 此存储库中的模型权重根据LICENSE_weights 文件中所述的 CC-BY-NC 4.0 许可证发布。

引用

有关 AudioCraft 的一般框架,请引用以下内容。

@inproceedings{copet2023simple,
    title={Simple and Controllable Music Generation},
    author={Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez},
    booktitle={Thirty-seventh Conference on Neural Information Processing Systems},
    year={2023},
}

在引用特定模型时,请按照模型特定 README 中的说明进行引用,例如 ./docs/MUSICGEN.md./docs/AUDIOGEN.md 等。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分发

audiocraft-1.3.0.tar.gz (635.7 kB 查看散列)

上传时间

支持者

AWS AWS 云计算和安全赞助商 Datadog Datadog 监控 Fastly Fastly CDN Google Google 下载分析 Microsoft Microsoft PSF 赞助商 Pingdom Pingdom 监控 Sentry Sentry 错误记录 StatusPage StatusPage 状态页面