3000 积分	0 好友	422 主题

发消息

[其他] Sokuji跨平台桌面工具：集成多AI模型的实时语音翻译方案

发表于 2025-12-23 18:45:17 | 查看: 63| 回复: 0

Sokuji 是一款跨平台桌面应用程序，旨在利用 OpenAI、Google Gemini、Palabra.ai 和 Kizuna AI API 提供实时语音翻译。它支持 Windows、macOS 和 Linux 系统，除了桌面版，还提供了浏览器插件，可以直接在 Chrome 和 Edge 上使用，特别适配了 Google Meet 和微软 Teams 会议场景。

另外在 Linux 系统上，还能创建虚拟音频设备，把翻译后的语音直接传给其他应用使用，并支持实时语音穿透和音频可视化显示。通过采集音频输入、运用先进的 AI 模型进行处理并实时提供翻译结果，从而打破实时对话中的语言障碍。此外，它还支持与 OpenAI 兼容的 API 接口，以增强灵活性。

不仅仅是翻译

Sokuji 通过提供完整的音频路由解决方案和虚拟设备管理（仅限 Linux），超越了基本的翻译功能。它允许与其他应用程序无缝集成，并提供了现代化的直观界面，具有实时音频可视化和全面的日志记录。

功能特性

实时语音翻译：集成 OpenAI、Google Gemini 等主流 AI 提供商进行处理，实现低延迟翻译。
简易模式界面：为非技术用户设计的精简 6 部分配置：
- 界面语言选择
- 翻译语言对（源语言/目标语言）
- 带有验证功能的 API 密钥管理
- 麦克风选择（含“关闭”选项）
- 扬声器选择（含“关闭”选项）
- 实时会话时长显示
多提供商与模型支持：可在 OpenAI、Google Gemini、Palabra.ai 和 Kizuna AI 之间无缝切换。支持的模型包括：
- OpenAI: gpt-4o-realtime-preview, gpt-4o-mini-realtime-preview, gpt-realtime, gpt-realtime-2025-08-28
- Google Gemini: gemini-2.0-flash-live-001, gemini-2.5-flash-preview-native-audio-dialog
- Palabra.ai: 通过 WebRTC 实现的实时语音到语音翻译
- Kizuna AI: 支持后端管理身份验证的 OpenAI 兼容模型
- OpenAI 兼容: 支持自定义 OpenAI 兼容的 API 端点（仅限 Electron）
高级音频处理：
- 自动话轮检测（含普通、语义、禁用模式）
- 带有波形显示的音频可视化
- 高级虚拟麦克风（仅限 Linux），采用双队列音频混合系统
- 分块音频支持，高效处理大型音频流
- 实时语音直通，可在录音会话期间监听原始音频
设备与配置管理：
- 在 Linux 上创建和管理虚拟音频设备（使用 PulseAudio/PipeWire）
- 虚拟设备之间的自动音频路由（仅限 Linux）
- 自动设备切换和配置持久化
- 音频输入/输出设备选择
其他增强功能：
- 用于跟踪 API 交互的全面日志
- 可定制的模型设置（温度、最大令牌数）
- 用户转录模型选择（对于 OpenAI：gpt-4o-mini-transcribe, gpt-4o-transcribe, whisper-1）
- 降噪选项（对于 OpenAI：无、近场、远场）
- 提供实时反馈的 API 密钥验证
- 用户主目录中的配置持久化
- 多语言支持：完整的国际化，支持 35 种以上语言

音频架构

Sokuji 采用基于 Web Audio API 的现代音频处理流水线，并在 Linux 上提供额外的虚拟设备功能：

ModernAudioRecorder：通过高级回声消除捕获输入
ModernAudioPlayer：处理基于队列的音频播放管理
实时处理：具有分块播放功能的低延迟音频流
虚拟设备支持：在 Linux 上，创建虚拟音频设备用于应用程序集成

音频流程

Sokuji 中的音频处理遵循以下流程：

输入捕获：启用回声消除的麦克风音频被捕获。
AI 处理：音频被发送到选定的 AI 提供商进行翻译。
播放：翻译后的音频通过选定的监听设备播放。
虚拟设备输出（仅限 Linux）：音频也被路由到虚拟麦克风供其他应用程序使用。
可选直通：可以实时监听原始语音。

该架构提供了以下优势：

使用现代浏览器 API 实现更好的回声消除。
通过优化的音频流水线降低延迟。
在 Linux 上实现无缝应用间音频路由的虚拟设备集成。
跨平台兼容性和优雅降级。

项目地址

如需获取源代码、详细文档或参与贡献，请访问项目 GitHub 主页：
https://github.com/kizuna-ai-lab/sokuji/blob/main/README.md

上一篇：NETworkManager开源网络管理工具：Windows全能图形化方案与NetSonar替代
下一篇：Linux日志分析实战：tail、grep、sed、awk组合拳高效排查生产环境问题

Sokuji, OpenAI, GoogleGemini, WebRTC, 实时翻译