找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2799

积分

0

好友

370

主题
发表于 昨天 05:24 | 查看: 1| 回复: 0

最早关注我的读者可能还记得,我大概、应该、也许算是全球最早让 ChatGPT 开口“说话”的人之一。

那是在 ChatGPT 刚发布不久,技术圈开始为之沸腾的时候。我亲手写了一段代码,并录了个视频,让 ChatGPT 3.0 用语音回答“乔布斯和马斯克谁更厉害”这个问题。视频发到 B 站后,一天播放量就破了十万,公众号也因此涨了一万多粉丝,全是来要代码的。

后来,不少做硬件的朋友找上门来谈合作,有的甚至当天就飞到了北京,都想把这套“能说话的 AI”方案落地到产品里。

但我心里清楚,一来我的兴趣点不完全在这个方向,二来总觉得当时的技术方案从根本上就不对路。那套方案本质是“语音转文字 → LLM 处理 → 文字转语音”的串联管道,延迟高、体验割裂。最关键的是,AI在说话时完全“听不见”你在说什么,就像个单向喇叭。

虽然我当时还加入了一些同步检测的逻辑来模拟双向交互,但那并非真正的端到端原生能力,只是我一个周末捣鼓出来的实验品,技术深度有限。

那时我就在想,真正理想的交互方案应该是全双工的、端到端的:AI 应该能一边说一边听,就像人和人面对面聊天一样自然流畅,感知不中断。

而现在,MiniCPM-o 4.5 来了,它几乎完美地实现了我当年的设想。

MiniCPM-o 4.5全双工全模态大模型宣传图

更值得一提的是,面壁智能这次非常大度地将它完全开源了。

重新定义交互:什么是“全双工”?

首先,我们来厘清一个核心概念:全双工

传统的多模态大模型,其交互模式更像使用“对讲机”。你必须按着通话键说完,松开,等待对方回应;对方说话时,你也听不见任何背景音。映射到AI交互上,就是“你说完 → AI处理 → AI回答”,在AI“说话”期间,它的视觉和听觉模块在逻辑上是关闭的,无法感知环境变化。

而 MiniCPM-o 4.5 实现的是原生全双工。这意味着模型在生成语音输出的同时,其视觉和听觉编码器仍在持续工作,实时接收并处理外界信息。

MiniCPM-o 4.5全双工多模态架构图

举个例子,你可以让它“帮我看一下电梯,到16层时告诉我”。在全双工模式下,它可以一边和你闲聊,一边持续观察电梯楼层的数字变化,并在目标楼层出现的瞬间,主动打断闲聊提醒你:“嘿,16层到了。”

这与市面上一些通过VAD(语音活动检测)等外部工程手段实现的“伪双工”有本质区别。后者仍是基于回合制的,只是通过工具让交互显得更流畅。MiniCPM-o 4.5则是在模型架构层面实现了感知不中断、交互零等待

不止于响应:具备“主动性”的AI

除了全双工,MiniCPM-o 4.5 另一个颠覆性的能力是主动交互

传统大模型严格遵守“一问一答”的范式,用户不提问,模型就保持沉默。但在真实的人类对话或协作场景中,一个得力的伙伴应该在合适的时机主动提供信息。

MiniCPM-o 4.5 能够根据环境信息的实时变化,自主决策对话策略。例如,在路口你让它“绿灯亮了就叫我”,它会持续观察交通信号灯,并在绿灯亮起的第一时间主动发出提醒,而不是被动等待你再次询问。

这背后是模型以 1Hz 的频率(每秒一次)自动判断当前是否应该发言。这种高频的实时决策能力,与全双工的持续感知能力相结合,共同构成了“主动提醒、主动评论”这类高级交互的基石。

性能实测:小身材蕴含大能量

光有概念不够,硬指标才是试金石。根据官方发布的评测数据,MiniCPM-o 4.5 在多个维度表现惊人。

多模态模型综合性能对比雷达图

综合多模态能力
在权威评测集 OpenCompass 上,MiniCPM-o 4.5(9B)综合得分达到 77.6,表现超过了 GPT-4o 和 Gemini 2.0 Pro,直逼规模更大的 Gemini 2.5 Flash。

视觉理解(Instruct模式)

模型 OpenCompass MMBench EN MathVista MMMU
Gemini 2.5 Flash 78.5 86.6 75.3 76.3
MiniCPM-o 4.5 77.6 87.6 80.1 67.6

在 MMBench、MathVista 等核心视觉理解任务上,这个9B的“小钢炮”甚至拿下了多项第一。

语音生成质量
语音合成的准确性是自然对话体验的关键。在语音错误率评测上,MiniCPM-o 4.5 表现优异。

模型 seedtts test-zh CER↓ seedtts test-en WER↓
CosyVoice2 1.45% 2.57%
Qwen3-Omni 1.41% 3.39%
MiniCPM-o 4.5 0.86% 2.38%

其在长语音合成任务上优势更明显:英文长语音的 WER(词错误率)仅为 3.37%,而对比的 Qwen3-Omni 高达 17.33%。

推理效率与资源占用
9B 的参数量带来的不仅是性能,还有实实在在的部署优势。

模型 格式 解码速度 (tokens/s) 首 Token 延迟 显存占用
Qwen3-Omni (30B) int4 147.8 1.0s 20.3GB
MiniCPM-o 4.5 bf16 154.3 0.6s 19.0GB
MiniCPM-o 4.5 int4 212.3 0.6s 11.0GB

可以看到,即使在 bf16 全精度下,MiniCPM-o 4.5 的解码速度也很快,首 Token 延迟低至 0.6 秒。经过 int4 量化后,显存占用仅需 11GB,这使得在消费级显卡(如 RTX 4070)上本地部署成为可能。

对于希望深入探索多模态和Transformer架构的开发者来说,如此高效的模型无疑是一个绝佳的开源实战研究对象。

快速上手:部署与全双工推理代码

MiniCPM-o 4.5 提供了多种部署方式,支持 llama.cpp、Ollama、vLLM、SGLang 等主流推理框架。

1. 基础环境安装

pip install "transformers==4.51.0" accelerate "torch>=2.3.0" "minicpmo-utils[all]>=1.0.2"

2. 模型初始化与转换全双工模式

import torch
from transformers import AutoModel

model = AutoModel.from_pretrained(
    "openbmb/MiniCPM-o-4_5",
    trust_remote_code=True,
    attn_implementation="sdpa",
    torch_dtype=torch.bfloat16,
    init_vision=True,
    init_audio=True,
    init_tts=True,
)
model.eval().cuda()

# 初始化TTS模块
model.init_tts(streaming=False)

# 关键一步:转换为全双工推理模式
duplex_model = model.as_duplex()

3. 全双工流式推理示例
以下代码展示了如何处理一段视频流,实现边看、边听、边说的全双工交互。

from minicpmo.utils import get_video_frame_audio_segments

# 提取视频的帧和音频片段
video_path = "your_video.mp4"
video_frames, audio_segments, stacked_frames = get_video_frame_audio_segments(
    video_path, stack_frames=1, use_ffmpeg=True
)

# 准备全双工会话
ref_audio = None  # 可提供参考音频以克隆音色
model.prepare(
    prefix_system_prompt="Streaming Omni Conversation.",
    ref_audio=ref_audio,
)

# 流式处理每个视频/音频片段
for chunk_idx in range(len(audio_segments)):
    audio_chunk = audio_segments[chunk_idx]
    frame_list = [video_frames[chunk_idx]]  # 当前帧

    model.streaming_prefill(audio_waveform=audio_chunk, frame_list=frame_list)
    result = model.streaming_generate(max_new_speak_tokens_per_chunk=20)

    # 根据模型决策输出结果
    if result["is_listen"]:
        print("模型正在聆听...")
    else:
        print(f"模型发言 > {result['text']}")
        # result['audio_waveform'] 包含生成的语音波形数据

面壁智能还同步开源了 llama.cpp-omni 推理框架,配合 WebRTC Demo,可以在 MacBook 等本地设备上直接体验低延迟的全双工全模态对话。详细的部署指南和踩坑心得,都可以在云栈社区的技术板块找到分享。

社区反响与未来展望

模型一经发布,便在开发者社区中引发了热烈讨论。

许多开发者认为这是“开源社区的一个重要里程碑”。正如一位网友所说:“这不仅仅是多模态,这是真正的自然交互。全双工的看、听、说同时进行,还能主动提醒,感觉是迈向类人感知的第一步。”

的确,MiniCPM-o 4.5 带来的不仅是能力叠加,更是一种交互范式的改变。它从“你问我答”的回合制,转向了“同步感知、实时协作”的连续体。

MiniCPM-o 4.5 多维度基准测试成绩表

9B 的参数量被广泛认为是一个“甜点级”尺寸。它足够小,可以塞进端侧设备,让实时交互成为可能;又足够大,能够承载复杂的多模态理解与生成任务。这意味着,无论是人工智能研究者、机器人开发者,还是普通极客,都有了在本地硬件上探索下一代人机交互的可能。

总结:推开一扇新的大门

MiniCPM-o 4.5 的开源意味着什么?

当科技巨头们还在为多模态实时交互设置技术壁垒时,面壁智能直接开源了“原生全双工”这一核心能力。

面壁小钢炮MiniCPM-o 4.5标识

从今天起,开源社区第一次拥有了真正能“边看边听边说”的全模态模型底座,而不再是依靠外挂工具拼凑出的“伪双工”方案。

9B 的尺寸为它在端侧场景的应用打开了广阔天地:具身智能机器人、智能汽车座舱、个人电脑助手,甚至物联网设备。这些场景一直渴望一个能理解环境、实时沟通、自主交互的“大脑”,MiniCPM-o 4.5 有望补上这块关键的拼图。

当然,它目前并非完美。部署流程对新手仍有一定门槛,需要固定特定版本的 transformers,全双工模式依赖 FFmpeg 等外部工具。但作为一项刚刚开源的前沿技术,我们有理由相信生态会快速完善。

或许,一个更自然、更高效、更智能的人机协同新时代,真的就此拉开了序幕。

相关资源




上一篇:OLAP数据库ClickHouse解析:如何凭实时分析能力,赢得字节腾讯微软特斯拉等大厂青睐
下一篇:MySQL索引优化实战:剖析6大失效场景,将慢查询从5秒降至0.05秒
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-7 07:46 , Processed in 0.454083 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表