为IBus提供(Docker)服务的DeepSpeech
项目描述
Listener (v2) 语音听写作为IBus的(Docker)服务
Listener是一个为Linux桌面提供的语音听写服务,它使用Mozilla Deep Speech引擎提供基本的识别服务,并专注于提供足够的准确性和服务,以便进行常见的编程语言的编码。
我的目标是为那些有 打字困难 的人(如我本人)创建一种输入法,重点是允许通过语音进行编码。我的个人重点是不要允许机器的无手操作。
项目当前状态
项目的当前状态是一个概念证明,什么工作
- 将内容输入到visual studio code、kate和google chrome中
- 基本的标点符号、大小写等通过用户可编辑的规则文件驱动
路线图
- 创建一个包含工作DeepSpeech发布的Docker容器 [完成]
- 将基本的工作听写集成到任意应用程序中 [完成]
- 创建控制面板应用程序 [开始]
- 创建标点符号和控制快捷键和短语 [开始]
- 允许根据不同的编程环境切换语言模型,并从语言服务器提供当前上下文提示,例如类方法、模块等
- 创建对听写有意识的语言模型,以便常见的听写快捷键(如
cap X
)具有更高的优先级 - 跟踪交互和按键事件,以便在听写中无需额外空格即可暂停,这必须发生在IBus组件中,以便获得适当的提示
- 发送特殊键(Tab、Enter以及以修饰符开始)[已实现概念验证]
- 创建一个“更正”的GUI(包含其他预测和自由编辑)
- 创建一个控制面板,允许一键切换监听
- 将容器大小减少到更合理的尺寸
- 也许为核心代码创建一个DBus服务[已开始]
架构
-
pacat将音频发送到命名套接字
-
一个Docker容器运行Mozilla DeepSpeech,由宿主操作系统(NVIDIA)的显卡硬件加速
- 容器从管道中读取音频并将结果报告给用户本地的event-socket
-
一个解释器进程监听事件并根据用户规则尝试解释结果,最终是自定义语言模型
-
一个IBus Engine,允许将识别结果作为常规输入处理到(Linux)宿主操作系统
-
一个UInput机制,允许将特殊字符像直接输入键盘一样引入
安装/设置
查看安装文档
开发者的参考文档
项目详情
关闭
listener-2.0.0a1.tar.gz的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 3206e1b096b6439c322c1340098391fc2e40e15a46f6016c987b8d42e4a99d98 |
|
MD5 | e822b91cffaafb6c95bc829b0d157499 |
|
BLAKE2b-256 | d0a00c514e621e6db023226c2158e7a62f7294d7deb75289b1e69829d0b0ad84 |