跳转到主要内容

为IBus提供(Docker)服务的DeepSpeech

项目描述

Listener (v2) 语音听写作为IBus的(Docker)服务

Listener是一个为Linux桌面提供的语音听写服务,它使用Mozilla Deep Speech引擎提供基本的识别服务,并专注于提供足够的准确性和服务,以便进行常见的编程语言的编码。

我的目标是为那些有 打字困难 的人(如我本人)创建一种输入法,重点是允许通过语音进行编码。我的个人重点是不要允许机器的无手操作。

项目当前状态

项目的当前状态是一个概念证明,什么工作

  • 将内容输入到visual studio code、kate和google chrome中
  • 基本的标点符号、大小写等通过用户可编辑的规则文件驱动

路线图

  • 创建一个包含工作DeepSpeech发布的Docker容器 [完成]
  • 将基本的工作听写集成到任意应用程序中 [完成]
  • 创建控制面板应用程序 [开始]
  • 创建标点符号和控制快捷键和短语 [开始]
  • 允许根据不同的编程环境切换语言模型,并从语言服务器提供当前上下文提示,例如类方法、模块等
  • 创建对听写有意识的语言模型,以便常见的听写快捷键(如 cap X)具有更高的优先级
  • 跟踪交互和按键事件,以便在听写中无需额外空格即可暂停,这必须发生在IBus组件中,以便获得适当的提示
  • 发送特殊键(Tab、Enter以及以修饰符开始)[已实现概念验证]
  • 创建一个“更正”的GUI(包含其他预测和自由编辑)
  • 创建一个控制面板,允许一键切换监听
  • 将容器大小减少到更合理的尺寸
  • 也许为核心代码创建一个DBus服务[已开始]

架构

  • pacat将音频发送到命名套接字

  • 一个Docker容器运行Mozilla DeepSpeech,由宿主操作系统(NVIDIA)的显卡硬件加速

    • 容器从管道中读取音频并将结果报告给用户本地的event-socket
  • 一个解释器进程监听事件并根据用户规则尝试解释结果,最终是自定义语言模型

  • 一个IBus Engine,允许将识别结果作为常规输入处理到(Linux)宿主操作系统

  • 一个UInput机制,允许将特殊字符像直接输入键盘一样引入

安装/设置

查看安装文档

开发者的参考文档

PyPI Version

项目详情


下载文件

下载适合您平台的文件。如果您不确定选择哪个,请了解更多关于安装包的信息。

源分布

listener-2.0.0a1.tar.gz (35.4 kB 查看哈希值)

上传时间

由以下提供支持