基于观察、倾听和学习方法的深度音频和图像嵌入
项目描述
OpenL3
OpenL3 是一个开源的 Python 库,用于计算深度音频和图像嵌入。
请参阅文档以获取详细说明和示例。
更新: Openl3 现在支持 Tensorflow 2!
注意: 哎呀!在训练代码中报告了一个错误,导致来自同一视频的正音视频对在时间上不一定重叠。尽管如此,嵌入仍然似乎捕获了有用的语义信息。
这里提供的音频和图像嵌入模型是作为[1]的一部分发布的,并基于 Look, Listen and Learn 方法[2]。有关嵌入模型及其训练细节,请参阅
Look, Listen and Learn More: Deep Audio Embeddings 中的设计选择
Aurora Cramer,Ho-Hsiang Wu,Justin Salamon,和 Juan Pablo Bello。
IEEE 国际声学、语音和信号处理会议(ICASSP),第 3852-3856 页,英国布莱顿,2019 年 5 月。
安装 OpenL3
依赖项
libsndfile
OpenL3 依赖于 pysoundfile
模块来加载音频文件,该模块依赖于非 Python 库 libsndfile
。在 Windows 和 macOS 上,这些将通过 pip
安装,因此您可以跳过此步骤。但是,在 Linux 上,必须通过您平台的包管理器手动安装。对于基于 Debian 的发行版(如 Ubuntu),可以通过简单地运行以下命令来完成:
apt-get install libsndfile1
或者,如果您使用 conda
,您可以通过运行以下命令来安装 libsndfile
:
conda install -c conda-forge libsndfile
有关更详细的信息,请参阅pysoundfile
安装文档。
Tensorflow
从 openl3>=0.4.0
开始,Openl3 已升级为使用 Tensorflow 2。由于 Tensorflow 2 及更高版本现在包含 GPU 支持,因此将 tensorflow>=2.0.0
作为依赖项包括在内,不再需要单独安装。
如果您对使用 Tensorflow 1.x 感兴趣,请使用 pip install 'openl3<=0.3.1'
进行安装。
Tensorflow 1x & OpenL3 <= v0.3.1
由于 Tensorflow 1.x 有 CPU-only 和 GPU 变体,我们让用户安装最适合其用例的版本。
在大多数平台上,以下任一命令都应正确安装 Tensorflow
pip install "tensorflow<1.14" # CPU-only version
pip install "tensorflow-gpu<1.14" # GPU version
有关更详细的信息,请参阅Tensorflow 安装文档。
安装 OpenL3
安装 OpenL3 的最简单方法是使用 pip
,它还会安装所需的额外依赖项(如果需要)。要使用 pip
安装 OpenL3,请简单地运行以下命令:
pip install openl3
从源安装 OpenL3 的最新版本
-
克隆或拉取最新版本,只检索
main
分支,以避免下载我们存储模型权重文件的分支(这些将在安装过程中正确下载)。git clone git@github.com:marl/openl3.git --branch main --single-branch
-
使用 pip 安装 Python 依赖项。安装还会下载模型文件,这需要一个稳定的网络连接。
cd openl3 pip install -e .
使用 OpenL3
有关如何开始使用 OpenL3,请参阅教程。
承认 OpenL3
当您在您的工作中使用 OpenL3 时,请引用以下论文
[1] Look, Listen and Learn More: Deep Audio Embeddings 中的设计选择
Aurora Cramer,Ho-Hsiang Wu,Justin Salamon,和 Juan Pablo Bello。
IEEE 国际声学、语音和信号处理会议(ICASSP),第 3852-3856 页,英国布莱顿,2019 年 5 月。
[2] Look, Listen and Learn
Relja Arandjelović 和 Andrew Zisserman
IEEE 国际计算机视觉会议(ICCV),意大利威尼斯,2017 年 10 月。
模型权重许可
模型权重在Creative Commons Attribution 4.0 国际 (CC BY 4.0) 许可证下提供。
项目详情
openl3-0.4.2.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | bd590f6c311de5196b615b65a3f49ea1327be72ed6e9e3cddb5631e391c1ee8a |
|
MD5 | a73f06ed7b4367795efce8619b7fef86 |
|
BLAKE2b-256 | 33fbac93a879d93db231e9f94acf2b07ac0977290f746953dd014ba7f1ac68b5 |