跳转到主要内容

基于观察、倾听和学习方法的深度音频和图像嵌入

项目描述

OpenL3

OpenL3 是一个开源的 Python 库,用于计算深度音频和图像嵌入。

PyPI MIT license Build Status Coverage Status Documentation Status Downloads

请参阅文档以获取详细说明和示例。

更新: Openl3 现在支持 Tensorflow 2!

注意: 哎呀!在训练代码中报告了一个错误,导致来自同一视频的正音视频对在时间上不一定重叠。尽管如此,嵌入仍然似乎捕获了有用的语义信息。

这里提供的音频和图像嵌入模型是作为[1]的一部分发布的,并基于 Look, Listen and Learn 方法[2]。有关嵌入模型及其训练细节,请参阅

Look, Listen and Learn More: Deep Audio Embeddings 中的设计选择
Aurora Cramer,Ho-Hsiang Wu,Justin Salamon,和 Juan Pablo Bello。
IEEE 国际声学、语音和信号处理会议(ICASSP),第 3852-3856 页,英国布莱顿,2019 年 5 月。

安装 OpenL3

依赖项

libsndfile

OpenL3 依赖于 pysoundfile 模块来加载音频文件,该模块依赖于非 Python 库 libsndfile。在 Windows 和 macOS 上,这些将通过 pip 安装,因此您可以跳过此步骤。但是,在 Linux 上,必须通过您平台的包管理器手动安装。对于基于 Debian 的发行版(如 Ubuntu),可以通过简单地运行以下命令来完成:

apt-get install libsndfile1

或者,如果您使用 conda,您可以通过运行以下命令来安装 libsndfile

conda install -c conda-forge libsndfile

有关更详细的信息,请参阅pysoundfile 安装文档

Tensorflow

openl3>=0.4.0 开始,Openl3 已升级为使用 Tensorflow 2。由于 Tensorflow 2 及更高版本现在包含 GPU 支持,因此将 tensorflow>=2.0.0 作为依赖项包括在内,不再需要单独安装。

如果您对使用 Tensorflow 1.x 感兴趣,请使用 pip install 'openl3<=0.3.1' 进行安装。

Tensorflow 1x & OpenL3 <= v0.3.1

由于 Tensorflow 1.x 有 CPU-only 和 GPU 变体,我们让用户安装最适合其用例的版本。

在大多数平台上,以下任一命令都应正确安装 Tensorflow

pip install "tensorflow<1.14" # CPU-only version
pip install "tensorflow-gpu<1.14" # GPU version

有关更详细的信息,请参阅Tensorflow 安装文档

安装 OpenL3

安装 OpenL3 的最简单方法是使用 pip,它还会安装所需的额外依赖项(如果需要)。要使用 pip 安装 OpenL3,请简单地运行以下命令:

pip install openl3

从源安装 OpenL3 的最新版本

  1. 克隆或拉取最新版本,只检索 main 分支,以避免下载我们存储模型权重文件的分支(这些将在安装过程中正确下载)。

     git clone git@github.com:marl/openl3.git --branch main --single-branch
    
  2. 使用 pip 安装 Python 依赖项。安装还会下载模型文件,这需要一个稳定的网络连接

     cd openl3
     pip install -e .
    

使用 OpenL3

有关如何开始使用 OpenL3,请参阅教程

承认 OpenL3

当您在您的工作中使用 OpenL3 时,请引用以下论文

[1] Look, Listen and Learn More: Deep Audio Embeddings 中的设计选择
Aurora Cramer,Ho-Hsiang Wu,Justin Salamon,和 Juan Pablo Bello。
IEEE 国际声学、语音和信号处理会议(ICASSP),第 3852-3856 页,英国布莱顿,2019 年 5 月。

[2] Look, Listen and Learn
Relja Arandjelović 和 Andrew Zisserman
IEEE 国际计算机视觉会议(ICCV),意大利威尼斯,2017 年 10 月。

模型权重许可

模型权重在Creative Commons Attribution 4.0 国际 (CC BY 4.0) 许可证下提供。

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解有关安装包的更多信息。

源代码分发

openl3-0.4.2.tar.gz (29.6 kB 查看哈希值)

上传时间 源代码

由以下支持