找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1531

积分

0

好友

225

主题
发表于 昨天 18:45 | 查看: 4| 回复: 0

Sokuji 是一款跨平台桌面应用程序,旨在利用 OpenAI、Google Gemini、Palabra.ai 和 Kizuna AI API 提供实时语音翻译。它支持 Windows、macOS 和 Linux 系统,除了桌面版,还提供了浏览器插件,可以直接在 Chrome 和 Edge 上使用,特别适配了 Google Meet 和微软 Teams 会议场景。

另外在 Linux 系统上,还能创建虚拟音频设备,把翻译后的语音直接传给其他应用使用,并支持实时语音穿透和音频可视化显示。通过采集音频输入、运用先进的 AI 模型进行处理并实时提供翻译结果,从而打破实时对话中的语言障碍。此外,它还支持与 OpenAI 兼容的 API 接口,以增强灵活性。

Image

不仅仅是翻译

Sokuji 通过提供完整的音频路由解决方案和虚拟设备管理(仅限 Linux),超越了基本的翻译功能。它允许与其他应用程序无缝集成,并提供了现代化的直观界面,具有实时音频可视化和全面的日志记录。

功能特性

  1. 实时语音翻译:集成 OpenAI、Google Gemini 等主流 AI 提供商进行处理,实现低延迟翻译。
  2. 简易模式界面:为非技术用户设计的精简 6 部分配置:
    • 界面语言选择
    • 翻译语言对(源语言/目标语言)
    • 带有验证功能的 API 密钥管理
    • 麦克风选择(含“关闭”选项)
    • 扬声器选择(含“关闭”选项)
    • 实时会话时长显示
  3. 多提供商与模型支持:可在 OpenAI、Google Gemini、Palabra.ai 和 Kizuna AI 之间无缝切换。支持的模型包括:
    • OpenAI: gpt-4o-realtime-preview, gpt-4o-mini-realtime-preview, gpt-realtime, gpt-realtime-2025-08-28
    • Google Gemini: gemini-2.0-flash-live-001, gemini-2.5-flash-preview-native-audio-dialog
    • Palabra.ai: 通过 WebRTC 实现的实时语音到语音翻译
    • Kizuna AI: 支持后端管理身份验证的 OpenAI 兼容模型
    • OpenAI 兼容: 支持自定义 OpenAI 兼容的 API 端点(仅限 Electron)
  4. 高级音频处理
    • 自动话轮检测(含普通、语义、禁用模式)
    • 带有波形显示的音频可视化
    • 高级虚拟麦克风(仅限 Linux),采用双队列音频混合系统
    • 分块音频支持,高效处理大型音频流
    • 实时语音直通,可在录音会话期间监听原始音频
  5. 设备与配置管理
    • 在 Linux 上创建和管理虚拟音频设备(使用 PulseAudio/PipeWire)
    • 虚拟设备之间的自动音频路由(仅限 Linux)
    • 自动设备切换和配置持久化
    • 音频输入/输出设备选择
  6. 其他增强功能
    • 用于跟踪 API 交互的全面日志
    • 可定制的模型设置(温度、最大令牌数)
    • 用户转录模型选择(对于 OpenAI:gpt-4o-mini-transcribe, gpt-4o-transcribe, whisper-1)
    • 降噪选项(对于 OpenAI:无、近场、远场)
    • 提供实时反馈的 API 密钥验证
    • 用户主目录中的配置持久化
    • 多语言支持:完整的国际化,支持 35 种以上语言

音频架构

Sokuji 采用基于 Web Audio API 的现代音频处理流水线,并在 Linux 上提供额外的虚拟设备功能:

  • ModernAudioRecorder:通过高级回声消除捕获输入
  • ModernAudioPlayer:处理基于队列的音频播放管理
  • 实时处理:具有分块播放功能的低延迟音频流
  • 虚拟设备支持:在 Linux 上,创建虚拟音频设备用于应用程序集成

音频流程

Sokuji 中的音频处理遵循以下流程:

  1. 输入捕获:启用回声消除的麦克风音频被捕获。
  2. AI 处理:音频被发送到选定的 AI 提供商进行翻译。
  3. 播放:翻译后的音频通过选定的监听设备播放。
  4. 虚拟设备输出(仅限 Linux):音频也被路由到虚拟麦克风供其他应用程序使用。
  5. 可选直通:可以实时监听原始语音。

该架构提供了以下优势:

  • 使用现代浏览器 API 实现更好的回声消除。
  • 通过优化的音频流水线降低延迟。
  • 在 Linux 上实现无缝应用间音频路由的虚拟设备集成。
  • 跨平台兼容性和优雅降级。

项目地址

如需获取源代码、详细文档或参与贡献,请访问项目 GitHub 主页:
https://github.com/kizuna-ai-lab/sokuji/blob/main/README.md




上一篇:NETworkManager开源网络管理工具:Windows全能图形化方案与NetSonar替代
下一篇:Linux日志分析实战:tail、grep、sed、awk组合拳高效排查生产环境问题
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-24 20:53 , Processed in 0.197853 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表