在人工智能席卷全球的浪潮中,AI 往往被视为资本市场的“金钥匙”,但在快手直播的实战场景里,它更是一把深入业务肌理、脚踏实地服务用户的“手术刀”。
本文基于快手算法专家 吴翔宇 在 2025 AICon 全球人工智能开发与应用大会·北京站 的演讲《快手直播的 AI 进化论:技术落地与用户体验升级》,回顾了直播行业从 1.0 的 PC 秀场到 2.0 的全民直播,再到 3.0 “AI 共生”时代 的蜕变历程。他指出,直播的本质始终是 UA(User-Author)关系的深度绑定,而大模型的出现,正以前所未有的姿态重塑这一关系的建立逻辑。
通过 自研 KVL 架构的多模态理解、用户触点的全链路升级、以及互动智能体的规模化落地,快手成功将大模型从幕后的算法推演推向了亿级 DAU 场景的前台交互。这不仅是一场生产力的革命,更是对直播生态大脑的一次彻底进化。
多模态大模型的出现,如同一场行业变革,彻底重塑了多模态内容理解的框架与范式,推动该领域实现跨越式发展。而在 AI 赋能交互领域,依托 GPT 类大模型卓越的生成能力,长期深耕系统后端的算法工程师,终于有机会在亿级 DAU 的国民级应用中,看到自身研发的模型直接与用户实现沟通、交互与价值传递。
1. 直播进化论:从 1.0 到 3.0,AI 如何重塑 UA 关系

过去二十年间,直播已从单一的娱乐工具演变为不可或缺的社会基础设施。
在直播 1.0 时代,受限于 PC 硬件、宽带及 Flash 技术,内容多集中于颜值秀场、才艺展示及游戏直播。虽然这一阶段确立了公会模式与打赏机制,使直播进入大众视野,但其本质仍属于相对小众的垂直娱乐领域。
随着智能手机、5G 网络及推荐算法的普及,直播迈入 2.0 时代。开播门槛的大幅降低,人人皆可主播。在快手等平台上,直播已深入各行各业,催生了“直播 + 电商”、“直播 + 招聘”等多元形态。直播由此完成了从娱乐向生活方式的转型,正式成为社会基础设施。
如今,我们正步入以“AI 共生”为特征的 3.0 时代。大模型、AIGC 与数字人技术正深刻重构直播的交互模式,推动其从单一的人际互动向智能交互跨越。例如数字人直播已能实现 24 小时不间断带货,在提升用户新鲜感的同时,挖掘出巨大的商业潜力。这一阶段标志着生产力的革命,AI 不仅能辅助开播,更在内容生产上实现了效率与智能化的飞跃。从 1.0 的“看热闹”到 2.0 的“办实事”,再到 3.0 的“智能化”,直播正变得愈发聪明且无处不在。

快手认为,直播的本质在于 UA(User-Author,即用户与主播)关系的建立。这种关系的形成并非随机,而是如同漏斗模型所展示的,经历了 匹配、触达、认知 与 关系建立 这四个环环相扣的演进阶段。
建立 UA 关系的第一步是 “找对人”,即通过深度分析用户的内容偏好、历史互动及实时行为,实现主播与用户的精准预匹配。然而,仅有匹配是不够的,关键在于让合适的主播在最佳时机出现在用户面前。这需要结合直播间的实时内容与用户的实时状态,寻找触达用户屏幕的最优窗口。当用户感知到直播间入口时,最初几秒的视觉与内容印象往往决定了其后续的留存意愿,因此,塑造第一印象至关重要。
为优化这一环节,我们借助大模型对主播特色与风格进行深层理解,动态生成个性化的直播间外内容展示。用户在点击进入前,便能与主播形成初步的认知共鸣。
用户进入直播间,并不代表推荐环节的结束,反而恰恰是关系建立的开始。直播的核心价值,在于构建长期的情感纽带。通过个性化互动提醒、粉丝权益推送等方式,可持续强化观众的参与感、认同感与归属感,最终实现 UA 关系的深度绑定。

既然直播的本质在于 UA 关系的建立,那么在海量流量的背景下,如何实现高效且高质量的连接便成为核心课题。在此过程中,大模型扮演着不可或缺的角色,快手 AI 从“匹配效率”与“服务质量”两个维度,全面重塑了秀场直播的生态循环。
在用户侧,AI 的核心任务是解决信息过载问题。面对数百万量级的主播储备,我们必须确保“对的主播”能在“对的时间”与用户相遇。这不仅需要通过多维信号整合来深度刻画主播特征与用户画像,更需要挖掘用户行为背后的深层动因。我们不仅关注点击偏好,更致力于理解用户在特定直播间氛围下的情感需求与打赏动机。此外,依托快手集短视频、直播、搜索与电商于一体的多场景生态,我们通过“短直联动”及多场景协同策略,确保了 AI 导向的精准性,从而最大化提升匹配效率。
在主播侧,AI 则更多地扮演着“智能导师”与“超级助手”的角色。在内容创作上,AI 能够实时生成话题并提示热点,确保主播在互动中始终有梗可接、有话可聊。在经营策略上,AI 依托大数据分析提供科学的开播建议,指导主播把握内容趋势以获取更多关注。
这种匹配效率与服务质量的双重提升,最终构建了一个理想的业务闭环:用户因精准匹配而留存,主播因服务质量优化而增收。对平台而言,AI 真正实现了效能与体验的同步跃迁,并直接驱动了直播营收的稳健增长。
2. 深度理解:从 ID 匹配到语义认知的范式跃迁
传统推荐算法多侧重于 ID 特征的拟合与匹配,而在大模型快速发展的当下,我们正实现从单纯 ID 关联向深度语义理解的范式跃迁。接下来,我们将重点分享如何结合快手直播的场景特性,依托多模态大语言模型(MLLM)实现深度理解能力的突破,最终达成更优质的 UA 关系匹配。

首先在技术实现层面,支撑深度理解的关键在于我们构建的多模态直播基座。早期我们曾借鉴 MiniCPM-V 等优秀模型构建了第一版基座,而目前则基于快手自研的 KVL 架构,实现了从分散式模型向通用底层的范式转移。
通过对比可以直观地看到架构演进带来的巨大差异:早期我们的理解系统由数十个分散的模型堆砌而成,为了解析一段直播,需要建立多级类目、属性标签、人物环境、动作捕捉以及颜值、游戏 IP 等众多专项模型。这种“打补丁”式的架构不仅识别精度有限,且可扩展性差,维护数十个在线模型的成本也极高,各模型间的协同效率十分低下。
为了解决这些问题,我们基于自研的 KVL 架构构建了更懂直播的通用底层。在持续预训练阶段,我们融入了大量快手直播场景的专属数据;在后训练阶段,我们将直播类目标签、主播描述等业务任务与视觉推理任务深度结合。这使得模型在保持强大通用能力的同时,实现了直播场景理解能力的显著升级。
转向这一新范式后,技术红利十分明显。首先,模型的泛化能力大幅提升,能够理解各类从未见过的、新兴的直播内容,而不再受限于预设标签;其次,多模态融合更加深入,模型能够同时解析画面、音频、文本及用户评论,实现真正的深度理解;此外,系统的可扩展性显著增强,处理新业务逻辑时,不再需要频繁上线新模型,而是通过策略定义即可快速补齐能力。
这种从分散走向融合的转变,本质上是直播生态“大脑”的进化,使模型能够像人类一样,在观看直播后即可充分表达对主播风格、直播内容及主题的多维度理解。

尽管多模态基座在领域训练中表现优异,但在直播场景中,大模型对主播的认知与用户的真实感知仍存在明显差距。
未经过对齐优化的基座模型,通常只能生成机械、表层的描述,例如仅识别 “女性、室内、唱歌” 这类基础标签,而用户更习惯从 “治愈系、宠粉、正能量” 等情感维度认知主播。同时,受后训练阶段对齐机制的限制,多模态模型易出现评价同质化问题,对颜值等核心特质无法做出具备区分度的深度判断。
在此前提下,从用户视角重新定义主播特质成为这一阶段的核心工作。我们通过两条路径引导大模型学习用户真实反馈:一是深度挖掘用户评论,借助 AI 聚类与语义标签技术,从海量评论中提炼可精准反映主播颜值、互动风格的高价值信息;二是联合产品端发放激励问卷,收集用户对主播的直观反馈,经低质量内容过滤与相关性校验后,沉淀出具备代表性的核心反馈数据。
最后,我们将用户侧反馈作为强化学习的基准事实,推动模型在多模态信息融合中持续迭代。在用户偏好的指引下,模型生成的标签体系与用户视角高度契合。经过这一迭代过程,模型不仅能客观解析主播内容,更能从用户视角感知与理解主播特质。

便实现了对主播内容的深度理解与用户视角的对齐,在直播场景中依然存在一个核心挑战:理解主播并不等同于理解“用户为何喜欢该主播”。过去的研究往往侧重于单向的内容评估,即判断主播素质优劣,但优质内容并不必然匹配所有用户的口味。因此,我们必须从单边理解迈向双向匹配,构建能够推演用户看播偏好、预测 UA 关系建立动因的深度能力。
在具体实现上,我们通过大模型对用户的历史行为序列(如打赏记录)进行深度解析。我们将用户过去互动过的主播视觉内容、口播文本及评论信息作为输入,并采用“候选主播选择题”的形式对模型进行训练。为了得出正确答案,模型必须对用户偏好序列与候选主播特质进行同步的逻辑推理。在此过程中,我们引入了类似 GRPO 系列的强化学习算法,结合特定的任务规则与奖励机制,对模型进行针对性优化。
这种优化带来了双重增益:一方面,系统能够生成极其精细的用户偏好画像,例如精准识别出用户对“带有强互动元素的歌唱类直播”的细分偏好;另一方面,模型能够输出明确的推荐理由,使推荐过程具备了透明度与可解释性。通过这种深层的心理与行为对齐,AI 实际上复盘了用户与主播产生情感连接的全过程,从而将内容理解对 UA 关系的预测精度提升到了前所未有的精度。

那么这种针对用户关系深度理解的高投入模型是否已经在快手落地?
直播场景恰恰提供了一个极为理想的实践温床。与短视频或电商拥有数亿级泛众 DAU 的情况不同,直播中具有高频打赏行为的高价值用户群体规模相对精准且集中,这使得我们能够投入更高精度的模型资源,为这部分核心用户提供极致精准的主播匹配。
在过去的几个月中,我们已将这种“会思考”的生成式推荐方案正式应用于直播业务链路。具体流程如示例所示:系统首先获取用户的历史打赏序列,通过大模型的归纳与推演,剖析其个性化偏好。这种分析生成的标签并非死板的预设分类,而是动态产出的描述,例如“双人互动 PK”、“青春女神”、“明亮室内环境”以及“交友向情感互动”等。
基于这些动态生成的深度画像,我们能够在千万级的主播资源库中,精准发掘出用户可能感兴趣、但在传统推荐逻辑中尚未触达的“潜在匹配”。这种方式极大地拓宽了兴趣预测的“解空间”,使我们能够在海量候选结果中,实现比以往任何内容理解方式都更加精准的匹配效果。
3. 触点升级:AI 驱动的第一印象与认知路径重构

如果说前面的讨论聚焦于如何构建更聪明、更懂人心的“直播大脑”,那么接下来的核心议题便是如何利用大模型能力为这个系统赋予“五官与嘴巴”,让它看得懂、会表达。第三章关于“用户触点升级”的目标,是希望用户与主播的首次相遇,能从随机的惊鸿一瞥转化为一种精准契合的必然。
要实现这一目标,意味着在用户滑动切换直播间的毫秒之间,系统展示的信息必须精准击中其潜在需求。为了探究用户在短短几秒内做出留存决策的底层逻辑,我们进行了深度用户调研。结果显示,用户对主播的筛选主要集中在主播特点、直播信息和直播效果三个维度。
在主播特点方面,超过 55.3% 的用户最看重主播的性格,这标志着直播行业已从早期的“颜值经济”跨越到了“性格经济”时代,用户更倾向于寻找能产生情绪共鸣的有趣灵魂。
其次,直播间的封面与标题是用户获取信息的关键触点。调研数据指出,有 40.7% 的用户会根据直播间传递的核心信息(如具体的业务品类或内容主题)来决定是否留存。
同样重要的是直播的实时效果,其中才艺内容与互动氛围是决定留存的核心。一个氛围冷清的直播间,即便主播颜值再高,也难以产生持久的吸引力。
由此可见,尽管用户兴趣多元,但高效、多维度地获取主播信息,仍是他们最核心且明确的共性诉求。面对瞬息万变的直播内容,用户注意力已成为极度稀缺的资源。若信息触点匮乏,高昂的选择成本将直接导致用户流失。
因此,我们的核心目标是通过强化直播间内外的双重触点,缩短用户对主播的认知路径。
直播间外是塑造第一印象的主战场,但主播难以时刻处于完美表演状态。此时,AI 的辅助作用便不可或缺:它能精准提取并浓缩主播的核心亮点,生成个性化的直播间外文案或动态展示,从而激发用户的点击意愿。
而当用户进入直播间后,常因信息断层(如错过精彩的 PK 或惩罚环节)而产生疏离感。为此,我们实时滚动播放精华摘要与直播预告,帮助用户快速补全背景信息,确保其能迅速融入当前的直播节奏。这种“直播间外抓眼球、直播间内留人心”的联动机制,本质上是利用 AI 自动生成的描述降低发现成本,再通过实时内容摘要降低理解成本。

屏幕左侧展示的正是我们“AI 主播简介”功能的落地效果。通过这一功能,我们成功在用户滑到直播间的第一秒,便能将其核心特点精准呈现。
首先,我们构建了多元数据智能分析系统,不仅实时解析当前的直播画面,还深度整合了主播的历史内容、直播行为、个人简介及预约信息等全栈数据,为每位主播建立起深厚的基础信息底座。
在此基础上,依托 KVL 模型的深度提炼能力,系统会自动生成一段兼具准确性与吸引力的解读文案。这段文案旨在突出主播的差异化核心卖点,从而彻底告别千篇一律的内容展现。
“AI 主播简介”的上线直接解决了两大核心痛点。
一方面,它实现了触点前置,用户无需进入直播间观察数分钟,在 Feed 流中即可快速建立认知,极大缩短了用户认知路径。
另一方面,它通过缓解信息不对称带来的认知缺失,显著提升了直播间的点击效率与停留时长。例如,针对演唱经典老歌的主播,AI 会提炼出“经典老歌唱得透”等具有故事感的标签,迅速将其从同质化的内容中脱颖而出;对于身着复古服装的互动直播,AI 则能解释其背后的整活逻辑,避免用户产生误解;而对于“秦腔非遗传承”与“助农”等关键词的提取,则能迅速建立用户的心理认同。
这一功能是将大模型的理解能力转化为实际产品生产力的典型案例。它让我们这些算法工程师从后台走向前端,通过 AI 技术为主播递上一张极具辨识度的“数字名片”。

如果说 “AI 主播简介” 是为主播递出的名片,那么 “AI 小快播报” 则更像是直播间内全天候在线的智能观察者。针对新进用户常因“跟不上进度”而产生困惑、最终流失的长期痛点,AI 小快播报通过扮演实时记录者的角色,根据直播间的不同形态,灵活切换两种工作模式来提升用户体验。
在“内容梗概型”模式下,AI 能够像撰写新闻简报一样,实时还原直播的内容主线与核心节点。例如,对于刚进入直播间的用户,系统会提示“开播 20 分钟、PK 战况、受罚后的反击”等关键信息,帮助用户迅速补全错过的情节,消除信息断层。而在“氛围鼓动型”模式中,AI 则侧重于情绪价值的引导,通过感性的话术激发用户的共鸣与参与感。
这种实时的智能化辅助,不仅显著延长了用户的观看时长,还通过消除信息壁垒降低了用户的心理疲劳感。同时,氛围的有效调动直接提升了评论与点赞的互动频率,并驱动用户在直播生态中进行更深度的浏览。
4. 智能体落地:从辅助工具到数字分身的价值延伸

接下来将深入讨论“AI 互动智能体”的落地实践。这一技术真正为直播间注入了“数字生命”,不仅简化了开播流程、让交互更自然,更实现了从提供情绪价值到驱动直播打赏的高效转化。
目前的单人秀场模式正面临人力驱动的天然瓶颈。传统的直播高度依赖主播个人,要求其在持续输出高质量内容的同时,还需兼顾高频的实时互动。这种“双线作战”的强度极易导致主播疲劳,进而影响直播表现的稳定性;此外,人力精力的有限性也制约了单人模式的营收上限,导致业务规模难以在保证质量的前提下持续扩张。
针对不同发展阶段的主播,其核心痛点也存在明显不同。中小主播往往尚未形成鲜明的个人特色,且难以承接好每一位观众,急需 AI 补齐基础互动能力,以平稳度过冷启动期。
而对于头部主播而言,虽然具备优质的内容产出能力,但在面对海量粉丝时却分身乏术。此时,AI 的核心价值在于拓宽其服务半径,确保每位粉丝都能获得被重视的个性化体验。基于这些现实挑战,构建 AI 互动智能体,已成为一个逻辑严密且具有实战价值的方案。

如上图所示,AI 助手在播前、播中、播后三个阶段实现深度渗透。我们可以借此观察,它如何补齐并强化直播间的服务能力,挖掘每个环节中的商业与情感价值。
直播前的准备阶段,核心目标是实现“精准入场”。AI 助手会在开播前提前开展工作。它会搭建话题模板库,自动准备个性化的欢迎语与感谢话术。同时,利用大模型优化直播间标题,精准植入核心关键词,提升搜索权重。此外,系统还会智能识别高价值粉丝,定向发送专属邀请或纪念日提醒,保障用户粘性。
进入直播中辅助阶段,AI 助手会成为实时的“智能互动导师”。它能实时解析弹幕和用户进场信号,辅助主播顾及到每一位观众。针对新老用户的不同身份,AI 会生成差异化的欢迎语。结合观众的地域、兴趣点,还能实时打造专属话题。通过调取用户的历史互动记录,AI 还能辅助主播进行动态关怀,构建主播与用户之间的专属记忆。
直播后的维护环节,重点转向深度关系维护与潜力用户挖掘。直播结束后,AI 会自动承接繁琐工作,把即时流量转化为长期存量。它可以自动答谢榜单贡献突出的用户,建立长期情感链接。也能在海量新观众里,精准挖掘潜力用户并进行针对性培养。通过深度分析本场直播数据,AI 还能为下一场直播给出科学的策略建议。
经过全流程的渗透,AI 互动助手不再只是辅助工具。它更像是能帮助主播运营私域资产的智能合伙人。AI 让主播从琐碎事务中抽身,专注于核心的内容创作。这从本质上提升了直播间的运营效率。

关于 AI 互动助手在直播场景中的实际表现,我们可以通过两个典型案例直观感受。
首先是“智能破冰与引导”功能。当老客户进入直播间时,系统会立即识别其身份。同时,精准建议主播基于用户的历史偏好进行互动。比如,用户此前若表达过听歌诉求,助手会提示主播主动询问其想听的曲目。这种具备“记忆力”的交互,极大增强了用户的归属感。
其次是“即时打赏反馈”功能。当用户赠送灯牌或礼物时,助手会迅速提醒主播。并且匹配高质量的感谢话术,通过即时且温情的反馈,促成用户持续打赏。这种细致的 AI 辅助,已让它成为快手直播今年的明星项目,为大盘带来了 4.1% 的营收增长。
在赋能新主播方面,AI 助手的表现尤为突出。中小主播在冷启动阶段,普遍存在“不知如何留客”的痛点。AI 补齐了他们基础服务能力的短板,让新主播群体的营收增长接近 6%。此外,付费率、互动率及长播率等核心指标,均呈现出明显的正向增长趋势。
AI 互动助手不仅能为头部主播锦上添花,更能为广大中小主播雪中送炭。它通过技术手段,补齐主播服务能力的短板。让每一个直播间,都能具备专业级的运营水平。

如果说此前介绍的 AI 互动助手是主播的辅助工具,那么 AI 分身则实现了主播能力的规模化复制。它核心解决的,是主播精力有限与用户需求无限之间的矛盾,保证在各类高并发场景下,互动体验都能保持实时、不间断。
与侧重第三方视角播报的“AI 小快播报”不同,AI 分身通过深度学习主播的语言风格,可完全切换至主播视角,完成自主交互。
要实现这种“神形兼备”的替代服务,首先需要完成主播风格的深度复刻。通过对主播独有的互动话术、语音节奏进行精准建模,数字分身在回复用户时,能保持高度的风格一致性。即便主播本人分身乏术,用户依然能感受到被关注的亲近感。
其次,分身具备深度内容承接能力。它能针对用户评论主动延伸话题,通过逻辑连贯的互动,维持直播间的活跃度。此外,数字分身还承担着推动商业转化的职责。它可实时监测关注、打赏等核心行为,代替主播完成个性化答谢,确保转化链路中的每个节点都能得到高效响应。
要让 AI 分身无破绽地替代主播提供服务,我们需要攻克三项核心挑战。
第一,在语料复杂、特征稀疏的场景下,如何为主播构建更精准的数字画像;第二,垂类数据普遍稀疏,通用模型在此类场景下表现往往不佳,如何通过技术手段优化模型输出效果;第三,高并发场景对 Badcase 率要求极高,如何将其降至极低水平,确保 AI 每一次代班都稳定可靠。
这一系列问题的核心解决方案,是我们搭建的多智能体(Multi-agent)协作机制。该机制包含多个关键环节:对 ASR 数据进行精细化清洗,对主播历史互动语料做规范化处理,结合模型定向微调,并接入外部知识库。最终通过多智能体协同配合,完成整体任务。

如屏幕左侧的实际应用场景所示,AI 分身不仅能深度理解用户需求,更能以主播特有的口吻给出有温度的反馈。例如,针对基层才艺主播,系统能自动生成极具亲和力的引导话术;而针对音乐类主播,则能以贴合其形象的语气邀约用户点歌。
在引入 AI 分身的回复与引导后,直播间营收提升了 1.27%,付费 UV 与评论 UV 等也得到了显著增强。数据证明,AI 分身有效填补了主播在精力受限时的服务空白,锁定了原本可能流失的互动机会,显著增强了用户对主播的身份认同感和归属感。
AI 分身已不再是冰冷的数字人,而是主播服务能力的数智化延伸,确保每位进入直播间的用户都能获得即时回应。这种沉浸式的交互体验,正是我们迈向“直播 3.0:AI 共生时代”的核心标志。
5. 未来展望
从 PC 秀场 1.0 时代,演进至 AI 共生的 3.0 时代,直播形态虽不断更迭,但链接主播与用户的本质始终未变。借助大模型技术,我们在三个维度实现了核心能力的跃迁:通过深度理解增强认知能力,通过触点升级提升产品力,借助互动智能体解放主播生产力。
如果说过去十年的关键词是“链接”,那么下一阶段的核心,便是 AI 与直播场景的“深度共生”。我们正处在从工具辅助,向全面数智化运营跨越的关键节点。
顺应这一趋势,快手在 2026 年上半年的工作重点,将聚焦于“交互式主播助手”的研发。与当前单向输出信息的助手不同,交互式助手将支持主播通过对话,进行深度咨询与答疑,助力主播呈现更高质量的直播内容。该助手不仅能提供直播表现回顾,涵盖关键指标分析与亮点复盘;还能针对脚本创意、实时话题,提供个性化建议。更重要的是,它实现了从单向提示到双向互动的范式转变。当主播对直播现状产生困惑,比如针对场观数据、内容瓶颈提出疑问时,助手能实时给出专业解答与指导。
如果说交互式主播助手赋能于生产端,那么“直播伴侣”则专注于革新看播体验。它着力打破推荐系统的“黑盒”现状,赋予系统与用户直接对话的能力,标志着看播体验从单纯的算法推演,进化为双向的意图对齐。直播伴侣的核心价值,在于实时捕捉并响应用户需求。当用户意图较为模糊时,系统会基于多样化的兴趣建模,提供探索性内容推荐,创造“意外惊喜”;当用户指令明确时,比如提出“寻找同类型主播”的诉求,系统会通过关键词匹配与个性化过滤,精准锁定目标。
这种交互模式,与传统搜索有本质区别:搜索通常始于明确的初始意图,而直播伴侣则扎根于看播过程中的即兴状态。例如,用户在观看某类直播时,产生“换个口味”的念头,这种上下文相关的诉求,恰恰需要通过交互式助手来深度满足。为进一步增强用户对系统的信任,我们将持续强化推荐算法的可解释性。
快手直播的 AI 进化仍在继续,上述实践为技术社区带来了从算法到产品的前沿启示。欢迎在云栈社区与更多开发者深入探讨大模型落地与交互体验升级。