找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1378

积分

0

好友

186

主题
发表于 4 天前 | 查看: 15| 回复: 0

LangChain近期发布的《State of Agent Engineering》报告,全面剖析了AI智能体在企业中的采纳现状、核心挑战与未来趋势。

本文对该报告进行了编译与解读,并融合了《AI原生应用架构白皮书》中的部分调研数据,旨在对比国内外智能体工程的发展异同,并对共性难题提供应对思路。

报告原文与白皮书链接:

调研人群画像:

  • 《State of Agent Engineering》:基于1340份有效回复,受访者包括工程师、产品经理、业务负责人及企业高管。
  • 《AI原生应用架构白皮书》:基于1382份问卷,受访者主要来自国内多场AI原生线下沙龙,以架构师、后端、运维及技术负责人为主。

什么是智能体工程?

智能体工程是将大语言模型转化为可靠、可投入生产系统的迭代过程。鉴于智能体行为固有的不确定性,工程师必须通过快速迭代来持续优化其输出质量与稳定性。

核心发现

企业的关注焦点已从“是否要构建智能体”转向“如何可靠、高效且规模化地部署智能体”。这一趋势预计将持续至2026年。核心发现如下:

  • 生产落地势头强劲:57%的受访者已将智能体投入生产环境,大型企业成为采纳先锋。
  • 质量是最大拦路虎:32%的受访者将“输出质量”列为首要障碍;相比之下,对成本的担忧较去年有所下降。
  • 可观测性已成为标配:近89%的受访者为其智能体实施了可观测性方案,其普及率远超评估(52%)。
  • 多模型策略成常态:OpenAI的GPT系列模型占据主导,但Gemini、Claude及各类开源模型也获广泛应用;模型微调尚未普及。

大型企业引领采纳浪潮

超过半数(57.3%)的受访者表示其公司已在生产环境中运行智能体,另有30.4%正在积极开发并有明确的上线计划。

相较于去年(51%的受访者称已有智能体上线),这标志着显著增长。企业正全面从概念验证阶段迈向实际生产部署。

企业智能体部署现状

《AI原生应用架构白皮书》中关于实施进程的调研结果同样显示,国内外智能体发展势头强劲。企业关注的核心已不再是“是否”推出智能体,而是“如何”以及“何时”推出。

国内企业AI应用实施阶段

规模效应显现

在员工超万人的大型组织中,67%已部署智能体,24%正在开发;而在员工少于百人的小型组织中,比例分别为50%和36%。这表明大型企业正更快地从试点走向可持续演进,这可能得益于其在平台团队、安全性及可靠性基础设施上更大的投入。

不同规模企业智能体部署对比

主流智能体应用场景

客户服务是最常见的智能体用例(26.5%),紧随其后的是研究与数据分析(24.4%)。这两类应用合计占所有主要部署场景的一半以上。

智能体主要应用场景分布

这一结果表明:

  1. 企业正越来越多地将智能体直接面向客户,而非仅限于内部使用。同时,智能体在提升内部效率方面价值显著,18%的受访者将其用于内部工作流自动化
  2. 研究与数据分析场景的流行,印证了智能体当前的核心优势:整合海量信息、进行跨源推理,并加速知识密集型任务。
  3. 应用场景呈现分散化趋势(受访者仅可选一项主要用例),说明智能体的应用正在从早期少数场景向更广泛领域拓展。
  4. 在万人以上大型企业中,内部生产力提升成为首要用例(26.8%),客户服务(24.7%)和研究与数据分析(22.2%)紧随其后。这表明大企业可能优先聚焦于提升内部团队效率,再逐步或同步向终端用户部署。

《AI原生应用架构白皮书》将落地场景归纳为四类(多选):重塑客户互动 > 重塑业务流程 > 提升员工体验 > 推动创新突破。结合两份数据来看,客户服务企业内部提效是当前智能体最确定的两大应用方向。

国内AI应用主要场景

投产的最大障碍:质量、延迟与安全

  • 质量仍是头号难题,与去年一致。今年有三分之一的受访者将其列为最大障碍。“质量”涵盖准确性、相关性、一致性,以及智能体能否保持恰当语气并遵守品牌或政策规范。
  • 延迟成为第二大挑战(20%)。随着智能体进入客户服务、代码生成等面向客户的场景,响应速度已成为用户体验的关键。这也反映了团队在质量与速度之间的权衡。
  • 成本担忧下降。模型价格下降和效率提升,似乎已将组织的关注点从“花费多少”转向“如何让智能体又快又好”。

智能体部署主要障碍

《AI原生应用架构白皮书》则从技术层面调研了挑战:长会话状态管理 > 算力资源调度 > 数据梳理链路 > 异步通信需求,这与质量、延迟、成本等业务挑战相呼应。

国内AI应用技术挑战

规模带来的新挑战:

  • 在2000人以上的大型企业中,安全跃升为第二大障碍(24.9%),超过了延迟。这反映出大型组织对数据合规、权限控制和审计追踪的更高要求。
  • 在万人以上企业中,开放式回答指出,幻觉输出一致性是确保智能体质量的最大挑战。许多人还提到,在大规模场景下进行上下文工程和管理上下文仍十分困难。

大型企业智能体部署障碍

《AI原生应用架构白皮书》对上下文工程和AI安全进行了初步探索。其中,上下文工程是技术难点,而安全则更依赖组织的体系化设计。

上下文工程架构

AI安全架构

智能体可观测性:已成为行业标配

  • 对多步推理链和工具调用进行追踪的能力,如今已是智能体工程的“基本要求”。89%的组织已为其智能体实施了某种形式的可观测性,其中62%具备详细追踪能力,可检查智能体的每一步操作。
  • 在已上线智能体的团队中,这一比例更高:94%拥有某种可观测性,71.5%具备完整追踪能力。这揭示了一个基本事实:若无法看清智能体如何推理和行动,团队就无法可靠地调试故障、优化性能,也无法赢得信任。

智能体可观测性采用情况

《AI原生应用架构白皮书》调研了可观测性的主流应用场景。

可观测性应用场景

同时,白皮书提供了相关理论与实践,指出解决以上痛点的关键能力在于:端到端的全链路跟踪、全栈观测、自动化评估

可观测性关键能力

智能体评估与测试:仍在追赶

  • 尽管可观测性已普及,但智能体评估的采用仍在追赶中。略超一半的组织(52.4%)报告会在测试集上运行离线评估,表明许多团队已意识到在部署前验证行为的重要性。
  • 在线评估的采用率较低(37.3%),但正在快速增长,因为团队开始监控智能体在真实世界中的表现。

智能体评估方法采用率

  • 对于已上线智能体的团队,评估实践明显更成熟:“不评估”的比例从29.5%降至22.8%,而进行在线评估的比例升至44.8%。这表明一旦智能体面对真实用户,团队就必须依赖生产数据实时发现问题。

生产环境智能体评估情况

  • 大多数团队从离线评估入手,但许多正在叠加多种方法。在开展评估的组织中,近四分之一同时使用离线和在线评估。

评估方法组合使用情况

这些团队通常结合人工评审与自动化方法:用 LLM-as-Judge 实现广度覆盖,用人工审核处理深度判断。

  • 总体而言,人工评审(59.8%)在高风险或需细腻判断的场景中仍不可或缺,而LLM-as-Judge(53.3%)则被越来越多地用于规模化评估质量、事实准确性和合规性。
  • 相比之下,传统的机器学习指标(如ROUGE、BLEU)采用率很低,在开放的智能体交互中,往往存在多个有效答案,这些指标并不适用。

评估工具采用情况

《AI原生应用架构白皮书》也认为传统机器学习指标存在较高局限性。

传统评估指标局限性

更流行的是 LLM-as-Judge范式,白皮书提供了利用在线数据实现自动化评估的实践框架,这与LangChain等框架倡导的评估理念不谋而合。

自动化评估框架

模型与工具生态:开放、多元、务实

  • OpenAI模型主导,但多模型策略是常态。超过三分之二的组织使用OpenAI的GPT系列模型,但超过四分之三(75%+)在生产或开发中使用多个模型。团队倾向于根据任务复杂度、成本和延迟等因素,将不同任务路由给不同模型。

模型使用情况

《AI原生应用架构白皮书》中提到,多模型策略是常态,通过AI网关可以高效、安全、量化地管理模型供应与Token消耗,这是构建AI原生应用的关键组件。

AI网关作用

  • 自托管模型仍是重要策略。约三分之一的组织投入资源建设自有基础设施以部署开源模型。这可能是出于高用量下的成本优化、数据主权要求或特定行业监管。
  • 微调仍未普及。57%的组织未进行任何微调,而是依赖基础模型结合提示工程和检索增强生成(RAG)。由于微调需要大量投入,目前主要用于高影响力或高度专业化的场景。

模型微调与自托管情况




上一篇:指数族分布效应估计技术框架:基于目标正则化的因果建模新突破
下一篇:HarmonyOS鸿蒙创新赛获奖应用解析:碰一碰与隔空传送如何重塑应用交互
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-24 18:57 , Processed in 0.286519 second(s), 38 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表