云栈社区»论坛 › 站务中心「 Forum Service 」 › 端侧全双工多模态突破：MiniCPM-o 4.5技术报告详解与Omni-Flow框 ...

发回帖发新帖

4532 积分	0 好友	591 主题

发消息

端侧全双工多模态突破：MiniCPM-o 4.5技术报告详解与Omni-Flow框架揭秘

发表于 4 小时前 | 查看: 5| 回复: 0

你有没有想过，不用联网、仅靠一张消费级显卡，就能在个人电脑上跑起一个“边看、边听、边说、还能主动提醒”的类人AI助手？它既能实时感知环境的变化，同步理解你的意图，又全程保护隐私——这就是 MiniCPM-o 4.5 所能做到的。

凭借仅 9B 的参数规模，它实现了业界首个端到端全双工全模态大模型，让端侧AI普惠成了现实。自 2026 年 2 月模型发布以来，它在 Hugging Face 上的下载量已突破 25 万+。

模型用例展示： https://openbmb.github.io/minicpm-o-4_5-omni/
在线体验（无需注册/下载）： https://minicpmo45.modelbest.cn/

今天，面壁智能联合 OpenBMB 开源社区、清华大学 THUNLP 实验室和 THUMAI 实验室，正式发布了 MiniCPM-o 4.5 技术报告，首次公开了其全双工全模态交互领域的核心技术：Omni-Flow 流式全模态框架。

技术报告： https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf

MiniCPM-o 4.5 9B主视觉图：全双工全模态、自主交互、真人感语音对话

在技术报告发布的同时，这套方案还同步推出了在线体验 Demo、全模态全双工 API、端侧安装包 Comni 和 Demo 仓库。

在线体验 Demo

在线 Demo 是 MiniCPM-o 4.5 的原型示例网页应用，展示了传统轮次交互、语音双工交互、视频双工交互三大类应用原型，并开放了模型支持的全部配置项，包括 prompt 和参考音频设置。Demo 均可直接在手机或电脑上访问，并附带排队、录制、保存、分享、回看等提升体验的实用功能。

手机端： https://minicpmo45.modelbest.cn/mobile/
电脑端： https://minicpmo45.modelbest.cn/

全模态全双工 API

同步开放的 MiniCPM-o 4.5 API 支持全模态全双工实时交互。在全双工模式下，无需 VAD 机制来控制对话轮次，极大降低了开发者基于此模型构建应用的门槛。API 使用 https://api.modelbest.cn/minicpmo45/v1 端点，目前免费开放，详细用法请参阅 API 文档： https://api.modelbest.cn/minicpmo45/docs

Windows / macOS 端侧安装包 Comni

MiniCPM-o 4.5 已基于 llama.cpp 完成了模型量化和推理性能优化。实测最低在 12GB 显存的 RTX 5070 上就能流畅运行全双工模式（RTF 0.4），极大降低了个人端侧部署的门槛。为进一步简化操作，桌面软件 Comni 集成了模型下载、环境安装和 Demo 运行能力，提供 Windows / macOS 版本。在电脑上启动本地服务后，除了在本地浏览器中使用，更推荐通过手机用局域网连接它，进行全双工视频通话。

软件包下载链接如下：

平台: Windows
下载链接：
GitHub：https://github.com/tc-mb/llama.cpp-omni/releases/latest/download/Comni-Setup-win64.exe
ModelScope：https://modelscope.cn/models/OpenBMB/MiniCPM-o-4_5-gguf/resolve/master/app/Comni-Windows-x64.exe
硬件要求：12GB+ 显存 GPU，如 RTX 5070 / RTX 5080 / RTX 5090 / RTX 4090

平台: macOS
下载链接：
GitHub：https://github.com/tc-mb/llama.cpp-omni/releases/latest/download/Comni-macOS-arm64.dmg
ModelScope：https://modelscope.cn/models/OpenBMB/MiniCPM-o-4_5-gguf/resolve/master/app/Comni-macOS-arm64.dmg
硬件要求：M1-M5 Max / M5 Pro 建议内存 16G 以上

(上方视频展示了 MiniCPM-o 4.5 在个人笔记本上的完整部署与运行过程，包括全双工语音对话、实时视觉理解、主动提醒等能力演示)

Demo 仓库开源和 Linux 部署

上述 Demo 的全栈代码已开源，Linux 用户可直接克隆代码仓并部署完整的 Demo 服务。这也是业界首批能够本地部署的全双工全模态交互演示项目之一。

GitHub： https://github.com/OpenBMB/MiniCPM-o-Demo

为什么“全双工”是 AI 交互的下一站？

人类的交流是流畅且并行的。我们边听边思考，甚至可以随时打断对方。但过去，AI 与人类的交互模式更像是“半双工”的对讲机：你说完，它才能处理；它在说的时候，又听不见你的新指令。

这种不同频的体验，让多数用户难以在与大模型产品的交互中获得良好感受，甚至会因为交流的“时空割裂”而逐渐失去耐心。长此以往，大模型在多模态场景的落地无疑会大大受阻。

而 MiniCPM-o 4.5 在业界首创的“全双工全模态”，则让模型能够在持续感知环境（看视频、听声音）的同时进行思考和响应——这让 AI 从一个被动的工具，真正变成了一个可以主动帮助人类的助手。

支撑这背后的是面壁智能与清华大学共同研发的 Omni-Flow 流式全模态框架。本次技术报告也首次披露了它的技术核心：它创造了一个共享的“时间轴”，把视觉、音频、语言等所有信息流都对齐到毫秒级的时间片上。模型在每个极小的时间片内，完成一次“感知-思考-响应”的循环。这套机制从底层赋予了模型持续感知和即时反应的能力。

此外，MiniCPM-o 4.5 坚持开源并提供可本地部署的 Web Demo，这对开发者与用户意味着什么？

绝对的隐私安全：全天候陪伴式 AI 会接触大量敏感信息。数据不出本地，是最好的隐私保护。
断网也能跑的可靠性：哪怕在隧道、野外，你的 AI 助手也不会“掉线”。
开发者的游乐场：完整的 Demo 前后端代码已开源。无论是智能座舱、无障碍辅助还是具身智能，你都可以基于此快速构建自己的全双工多模态应用，将想象变成现实。

技术报告深度解读：揭秘 MiniCPM-o 4.5 的实现之道

MiniCPM-o 4.5 采用端到端全模态架构，总参数量 9B。核心设计包括：

全模态端到端架构：多模态编码器/语音解码器与 LLM 通过逐 token 级隐藏状态紧密连接，在高压缩率下实现通用的视觉、听觉感知和语音对话。
时分复用机制：将并行多模态流划分为周期性时间片内的顺序信息组，实现高效的流式处理。
可配置语音建模：支持文本+音频双系统提示，通过参考音频和角色提示词即可实现声音克隆与角色扮演。
双模式支持：同一模型即可支持传统的轮次交互模式，也能无缝切换至 Omni-Flow 全模态全双工模式。

1）实时交互：Omni-Flow 流式全模态框架

传统多模态模型将交互视为一系列孤立的回合，而 Omni-Flow 将其重塑为一个连续的过程。

从纯文本到全双工流式的交互范式演进图
图1：交互范式的演进，MiniCPM-o 4.5 实现了最右侧的全双工流式交互

如图所示，Omni-Flow 将视觉、音频输入流和模型的文本、语音输出流，在时间上进行精确切片和对齐。模型不再被动等待用户输入完成，而是以极高的频率持续刷新自己的“世界观”，并自主决定在哪个时间点介入（说话或提醒）。这套机制原生支持了打断、插话等高级交互行为，彻底摆脱了对外部 VAD 等辅助工具的依赖。

2）端到端架构：9B 模型如何协同工作？

为了实现 Omni-Flow，团队设计了一套高效的端到端全模态架构，总参数仅 9B。

MiniCPM-o 4.5 端到端全模态架构图，展示了输入、编码、大模型、解码到输出的流程
图2：MiniCPM-o 4.5 的端到端全模态架构

其核心组件包括：

视觉编码器（0.4B）：SigLIP-ViT，负责“看”。
音频编码器（0.3B）：Whisper-Medium，负责“听”。
LLM 基座（8B）：Qwen3-8B，负责“思考”和理解。
语音 Token 解码器（0.3B）：轻量级 Llama 架构，负责将 LLM 的“想法”（文本）转化为语音单元。
声码器：将语音单元合成为最终的波形。

这个架构最巧妙的设计之一是：LLM 基座只生成文本 Token，而将专业的语音合成任务“外包”给了一个更小、更专业的语音解码器。这避免了大模型直接处理复杂声学任务，从而保证了其核心的语言与推理能力不受损害，同时通过各模块的 token 级稠密连接，保证了模型能力的高上限。

3）为实时而生：TAIL 语音生成方案

流式语音的一大难题是延迟。为了让语音听起来自然，模型通常需要“预读”一大段文本，但这会导致语音输出远远滞后于用户输入。在全双工场景里，这相当致命。为此，面壁智能团队提出了 TAIL（Time-Aligned Interleaving）方案，让每个语音块的生成都紧紧跟随实时的最新文本内容。同时，通过一个轻量级的“预读”机制，解决了跨词发音的连贯性问题。最终，TAIL 在保证音频流畅悦耳的同时，将语音输出与交互发生的延迟降到了最低。

4）性能表现：9B 模型硬刚业界顶尖

参数规模小不等于性能弱。MiniCPM-o 4.5 在多个维度的评测中，展现了与 SOTA 大模型掰手腕的实力。

多模型在多个基准上的性能雷达图，MiniCPM-o 4.5 在多项指标上表现突出

推理效率：在显存占用方面，MiniCPM-o 4.5 的 INT4 量化版仅需 12GB 显存即可运行，几乎是 Qwen3-Omni INT4 版本的一半，这让它在消费级显卡上的本地部署成为可能。在速度上，其 INT4 版本的解码速度达到了 212 tokens/s，比 Qwen3 快了 40% 以上，响应延迟也更低。

推理效率对比图：解码速度、首响时间和显存占用

综合视觉能力：在 OpenCompass、MMBench 等多个视觉基准上，9B 的 MiniCPM-o 4.5 与 Gemini 2.5 Flash 表现相当。

视觉基准测试表格，对比 MiniCPM-o 4.5, Gemini 2.5 Flash 和 Qwen3-Omni

全模态与全双工交互：在需要联合音视频理解的基准上，MiniCPM-o 4.5 全面超越了 Gemini 2.5 Flash 和 Qwen3-Omni。在全双工视频理解基准 LiveSports-3K-CC 上，其胜率（54.4%）更是大幅领先专用的流式视频模型。

全模态基准测试表格，MiniCPM-o 4.5 成绩领先

语音生成：无论中英文，MiniCPM-o 4.5 的语音生成质量（字符/单词错误率更低）和情感表现力都优于 Qwen3-Omni 和业界领先的 CosyVoice2。

语音生成基准测试表格，MiniCPM-o 4.5 表现最佳

真·全双工，潜力无限

全双工全模态大模型并非一个遥远的概念，它将催生一系列全新的应用：

主动式伴侣：在你烹饪、修理或运动时，给你实时的指导和提醒。
无障碍辅助：成为视障人士的“眼睛”，主动播报绿灯亮起、水杯将满等关键环境信息。
智能座舱：持续监控路况和驾驶员状态，主动提示“左侧有可用车位”并引导泊车。
具身智能：作为机器人的“大脑”，持续感知动态环境并自主决策交互时机。

这些场景的共同点是，需求并非一次性的问答，而是需要 AI 作为“沉默的观察者”和“及时的提醒者”融入动态生活流——这正是传统轮次对话模型无法胜任的。MiniCPM-o 4.5 是原生全双工模型，它摆脱了对 VAD 的依赖，这意味着它支持对 general 声音（环境噪音、音乐等，不限于语音）的感知，画面变化跟进更快，且在 AI 说话时可被实时引导改变内容。

当然，它目前在长时间交互的稳定性、主动行为的丰富性等方面仍有提升空间。多模态智能的下一个前沿不仅在于模型能力的扩展，更在于重新思考智能表达的交互范式。Omni-Flow 和 MiniCPM-o 4.5 正是面壁智能在这一方向上做出的关键探索。

开放与协作将持续推动人机交互的演进。欢迎所有开发者试用模型、参与讨论、贡献代码，共同探索人机交互的未来。

技术报告PDF： https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pd
在线体验： https://minicpmo45.modelbest.cn/
在线体验（手机端推荐）： https://minicpmo45.modelbest.cn/mobile/
GitHub Demo（含本地安装包）： https://github.com/OpenBMB/MiniCPM-o-Demo
Hugging Face 下载链接： https://huggingface.co/openbmb/MiniCPM-o-4_5
ModelScope 下载链接： https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5

如果你在 Demo 安装、API 调用或模型使用中遇到任何问题，或者想分享交流，欢迎扫码加入飞书群。

MiniCPM-o4.5 Demo 社群二维码

对于热衷于探索前沿开源项目的开发者，可以多关注云栈社区这类平台上的技术讨论，那里常有来自一线实践者的经验分享。而如果你对 MiniCPM-o 这类端侧人工智能模型背后的原理感兴趣，不妨读一读它开源在 HuggingFace 上的技术报告和源码，亲自上手跑一遍，所得一定会更多。

上一篇：AI时代，你过的不是一个大人生，而是10个不同的小人生
下一篇：MiniCPM-o 4.5技术报告解读：9B模型实现全双工AI，消费级显卡本地部署

MiniCPM-o, 全双工全模态, 端侧推理, Omni-Flow, 大模型