找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3598

积分

0

好友

468

主题
发表于 14 小时前 | 查看: 3| 回复: 0

AI驱动的技术诊断

在日常研发支持中,工程师们常常需要频繁穿梭于工单、群聊、舆情反馈与问题排查之间:一边向业务方解释复杂的业务规则与口径,另一边又要埋头追踪技术链路、查看海量日志、核对监控指标、执行数据补偿。这类工作通常高度碎片化、重复性强,且严重依赖工程师的个人经验,最终导致团队响应效率低下、问题处理质量不稳定、新人上手极其困难。

为了解决这个痛点,我们围绕“研发支持中的问诊难题”,构建了一个可持续运营的智能 Agent 系统。通过将一线高频问题抽象为两类核心能力形态(业务答疑与问题诊断),并结合“排查文档技能化”与“质量评分闭环”的创新机制,我们实现了将大量解释与排查工作前置并自动化。这套系统的目标不仅是“能运行”,更要能持续迭代进化,从而显著缩短首次响应时间与平均问题解决时长,提升服务的一致性与工程团队的整体效能。

一、背景:研发支持的真实工作流(为什么痛)

对于开发者而言,研发过程中最消耗精力的往往不是写代码,而是被不断打断

想象一下典型的工作日清晨:你正准备推进昨日因会议中断的核心开发任务,刚打开钉钉,消息提示就如潮水般涌来:

  • 产品经理转发了一段聊天记录,急切询问某个功能入口的具体逻辑;
  • 测试同事发来一条舆情链接,请求协助判断用户反馈是否属于系统异常行为;
  • 一线客服反复催促处理一个未闭环的工单,称商家已多次追问……

程序员的日常夹击:早间拷问、紧急救火、无尽答疑与Oncall风暴

为什么研发同学的一天总是这样开始?根本原因在于,随着业务长期演进与人员流动加剧,知识逐渐变得碎片化甚至出现断层。大量关键信息散落在代码注释、历史讨论或个别专家脑中,缺乏有效的组织与沉淀机制。以工单处理为例,系统可能已稳定运行多年,却始终没有形成可复用的经验资产,导致后续人员面对相似问题时仍需从零开始排查。同时,现代应用架构日益复杂,一个业务功能常常横跨多个微服务及数十个二方包,排查过程堪比一次“技术长征”。

这并非个例。根据内部调研数据,后端开发人员约有 20% 的时间用于处理运维类事务(如日常答疑、故障排查等),大量碎片化的投入严重影响了主职研发效率。

研发团队职能构成与工作分布深度解析

因此,我们要解决的并非某一个具体的技术难题,而是更根本性的问题:

如何让研发支持工作变得可规模化、可复用、可运营?

二、问题抽象归纳:将千奇百怪的问题收敛为两种能力形态

尽管用户提问的形式五花八门,但从“研发支持”的本质出发,可以将其归结为两大类典型任务:

2.1 形态一:业务答疑(解释型能力)

典型问题示例

  • “为什么我在后台看到A,用户在前端却看到B?”
  • “业务看板上的汇总数据和明细对不上怎么办?”
  • “这个订单字段的状态值‘5’到底代表什么?”

工程化定义
输入通常是某个现象或疑问;输出应包含:规则/口径说明 + 查证路径 + 结论边界
常见成因包括:AB实验策略、人群圈选、灰度发布、权限控制、版本差异、统计口径延迟等。

核心模式
理解用户意图 → 从知识库召回相关文档 → 模型综合分析 → 输出结构化解答。
这类场景相对成熟,已有较多实践,本文不做重点展开。

2.2 形态二:问题诊断(诊断型能力)

典型问题示例

  • “订单状态卡住了,一直不更新。”
  • “退款金额不一致 / 平台与商家对账失败。”
  • “这个接口调用超时 / 单笔交易流程异常。”

工程化定义
输入通常是携带具体ID(如订单ID、用户ID)的异常事实;输出需包含:证据链 + 定位步骤 + 可执行动作(如执行补偿、发起恢复、升级处理)。
常见根因:服务链路异常、依赖调用超时、补偿任务未触发、消息队列堆积、状态机阻塞、数据一致性问题等。

核心模式
分析问题意图 → 调用工具按标准作业程序(SOP)执行排查流程 → 综合各步骤结果生成结论 → 提供明确的操作建议。
相较于答疑类任务,诊断类对Agent的要求更高,需要其具备一定的逻辑决策能力和与外部系统的协同能力。

2.3 为什么要进行这种抽象?

因为这两种场景对应的Agent构建范式存在显著差异。我们的目标不仅仅是“让AI回答问题”,更要稳定地替代工程师完成一段标准化的支持流程

当问题被抽象为上述两种能力形态后,Agent的输出格式即可统一规范为以下结构:

结论 + 分析解释(规则/口径)+ 排查计划(可选)+ 动作建议 + 文档引用

这种结构化的输出,为后续的自动评估、系统运营与能力迭代提供了坚实的基础。

三、为什么值得做:收益空间来自“重复 + 切换 + 不一致”

研发支持的隐性成本远不止单次排查所花费的时间,它主要体现在三个方面:

  1. 重复劳动:高频问题反复出现,造成人力资源的持续性浪费。
  2. 上下文切换成本:工程师需要在不同业务系统、监控工具、日志平台间频繁跳转,严重打断其深度专注状态。
  3. 口径漂移:不同工程师对同一问题可能给出不一致的答案,引发业务方的信任损耗。

更重要的是,一套自动化系统能够有效解决因人员流动带来的知识断层风险,实现关键经验的有效沉淀与传承,支撑技术团队的可持续发展。

研发支持的隐性成本:重复劳动、上下文切换成本、信任损耗与信息断层

四、系统总览:一个“可运营”的问诊Agent需要什么?

我们的核心理念是:Agent建设必须具备可沉淀、可复用、可评估、易迭代的能力。

基于此,我们将整个系统自上而下划分为四个清晰的层次:

4.1 四层架构设计

层级 职责
接入层(Channels) 对接工单系统、舆情平台、IM群聊、合作方咨询入口等。需特别注意输入信息的冗余处理与多模态内容(如图片、视频截图)的预处理,以节约大模型token成本。
编排层(Orchestration) 进行意图识别(判断属于解释型还是诊断型问题),并将问题路由至对应的领域Agent。
实现层(Agent) 包含大语言模型(LLM)、检索增强生成(RAG)模块、排查技能文档库、公共知识库、上下文组装、工具调用策略等实际执行组件。
运营评估层(Ops & Eval) 负责问答记录管理、跟进事项跟踪、回答质量评分、数据报表监控、反馈闭环处理等,确保系统持续优化。

Agent系统四层架构与交互流程

4.2 设计原则:小域专精,避免大而全

以电商交易后链路为例,其涵盖订单正向履约、逆向退款、物流服务、商家支持、评价互动等多个子领域。各子域的服务对象、问题特征差异较大,耦合度低。

因此,我们放弃了构建“统一全能Agent”的模式,转而采用按业务子域独立建设专用Agent的策略。这种“小域专精”模式的优势显而易见:

  • 最大程度复用已有资产:可以直接复用各团队已有的技术支持文档与业务资料。
  • 提升回答准确性:避免在RAG向量召回时,不同领域的知识互相污染,干扰上下文。
  • 降低系统复杂度:路由逻辑更简单,各Agent独立进化,相互干扰少,整体开发和维护效率更高。

按交易子域划分的多个专用小助手

示例:问诊小助手内部模块交互架构
问诊小助手内部模块交互架构图

五、Agent构建演进:从“流程编码”到“技能化”

5.1 平台选择与早期模式

我们选用内部的IdeaLab平台进行快速搭建,以避免重复造轮子。该平台支持多种Agent构建方式:

IdeaLab平台提供的四种创建模式:智能助手、生成型、流程编排、演进型

早期我们主要尝试了两种模式:

(1)初阶模式:Java编码驱动流程
在提示词中编写指令,但实际的排查工作流完全依赖内部预先用Java代码编排好的工具链。

# Role
   你是一位严谨的工程技术支持人员,需要根据用户的问题提供详细而准确的回答。
# Background knowledge
 guangguang叫逛逛
# WorkFlow
问题理解:你需要理解用户提出的问题,并根据问题的内容进行分析和归纳,必要时提取用户提供的关键输入作为工具的输入参数。
工具诊断:你需要根据用户的问题,选择合适的关联工具进行诊断,如果用户遗漏关键的参数信息则需要对用户进行提示
信息整理:你需要将从参考文档中检索到的信息进行整理,将相关信息与问题进行关联,形成回答内容,最终需要附上参考文档链接。
回答生成:你需要根据整理的信息,生成详细而准确的回答,包括问题的详细回答、分析、流程和注意事项等。
# 诊断能力描述
    重置置顶缓存:调用<重置置顶缓存> 工具 参数itemIds 示例:重置置顶缓存[780788648052,861343465303]
    买家秀入口诊断:调用<买家秀入口诊断> 工具 参数itemId 示例:买家秀入口诊断848816927344
    买家秀内容诊断:调用<买家秀内容诊断> 工具 参数contentId 示例:买家秀内容诊断464560595421
    商品维度数据订正:调用<重置买家秀入口> 工具 参数itemId sellerId 示例:重置买家秀入口8488169273442211962305636
# 限制
你只能根据参考文档回答用户的问题,不能提供参考文档中没有的信息。
你需要确保回答的准确性,不能捏造或创造答案。
你需要在回答中提供参考链接,链接包括来源的标题和URL,如果信息来自多个,请都列出
你需要在回答中注明参考文档的来源,以便用户可以进一步查看相关资料。
如果没有能回答问题的参考文档,你需要直接回答“抱歉,这个问题我无法回答,请联系值班同学”。

特点:排查逻辑由Java代码完全实现。
缺点:模型仅作为“意图识别器”和“工具调用器”,其强大的推理能力未被充分利用;流程完全固化,灵活性差,难以快速迭代。

(2)进阶尝试:提示词内嵌SOP
将完整的排查流程直接写入提示词,并将工具能力原子化。

# 角色
   你是一位严谨的工程技术支持人员,需要根据用户的问题和参考文档:${REFERENCE_DOC},提供详细而准确的回答。

# 工作流

前置知识:订单id 一般有18或者19位 如4227378732121862513 评价id 相对比较短 如1263242509876

问题理解:你需要理解用户提出的问题,并根据问题的内容进行分析和归纳,必要时提取用户提供的关键输入作为工具的输入参数。
工具诊断:你需要根据用户的问题,选择合适的关联工具进行诊断,必要时需判断用户输入到底是订单id还是评价id,如果用户遗漏关键的参数信息则需要对用户进行提示,对于诊断不通过的场景需要给出工具的原始输出作为引用

数据订正:根据用户的问题,选择相应的工具进行订正,如果用户输入的参数不对,则需要进行提示。数据订正的结果需要全部返回,并针对结果做简要的分析

信息整理:你需要将从参考文档中检索到的信息进行整理,将相关信息与问题进行关联,形成回答内容,最终需要附上参考文档链接。
回答生成:你需要根据整理的信息,生成详细而准确的回答,包括问题的详细回答、分析、流程和注意事项等。
# 能力描述
    待评价状态订正:调用<待评价状态订正>工具 参数订单id 用户id
 示例:待评价状态订正 3690598644532059518  923051895
    订单是否可评校验:调用<订单待评价校验>工具 检验改订单是否能够评价 示例订单是否可评3690598644532059518
    评价有礼渲染校验:调用<评价详情接口>工具 根据返回的数据检测字段rewardNumberFormat对应的值是否为空,如果不为空则输出“校验通过,渲染时透出评价有礼相关信息”,并给出透出的具体金额;如果返回的评价信息不空,则返回“渲染时无评价有礼信息”;如果没有返回评价信息,则输出“没有查到评价信息,请检查订单号是否有误,或者改评价是否已超过两年”
  评价有礼未发放:调用<评价详情接口>工具 根据返回的数据检测字段pjyl对应的值是否为空,如果不为空则输出“该评价已发放红包”;否则输出“改评价不满足发放条件”,并结合评价有礼问题排查手册,给出具体原因

# 限制
你只能根据参考文档回答用户的问题,不能提供参考文档中没有的信息。
你需要确保回答的准确性,不能捏造或创造答案。
你需要在回答中提供参考链接,链接包括来源的标题和URL,如果信息来自多个,请都列出。
你需要在回答中注明参考文档的来源,以便用户可以进一步查看相关资料。
如果没有能回答问题的参考文档,你需要直接回答“抱歉,这个问题我无法回答,请联系值班同学”。

优点:灵活性增强,减少了对硬编码的依赖。
缺点:当多个技能共存于一个提示词时,会导致“提示词爆炸”问题;上下文变得混乱,模型的指令跟随能力下降,运行稳定性变差;可维护性极差,每新增一个技能都需要修改主提示词。

(3)Workflow模式的局限性
虽然Workflow模式更利于原子化工具的组合编排,但每次新增技能都需要重新进行可视化编排,开发和调试成本依然不低。

复杂的Workflow编排流程图令人望而生畏

更重要的是,它强依赖人工预先编排,难以享受到底层大模型能力提升带来的“红利”,也未能从根本上解决系统的长期可维护性问题。

综上所述,我们需要一种既能保证高质量、稳定输出,又能支持低成本、快速迭代的新范式。

5.2 新范式:把排查能力封装成“可召回的排查文档(SOP Doc)”

受ReAct(Reasoning and Acting)框架启发,我们提出了新的构建思路:以“场景排查文档”作为最小的能力单元,通过RAG技术进行精准召回并动态注入上下文,从而引导大语言模型严格按手册步骤执行,并让其自主完成工具调用与过程纠错。

ReAct框架核心要素:思考、行动、观察的循环

核心思想转变

  • 文档即技能闭包:用强约束的文档减少模型的“幻觉”与自由发挥。
  • 新增能力 = 新增文档:无需改动核心提示词或编排流程,实现能力与系统的解耦。
  • 维护对象下沉:工程师的维护工作从“修改代码/调整prompt”变为“编写和维护业务排查手册”,更贴近一线实际。

智能体诊断流程:意图识别、RAG召回、生成步骤、工具诊断、格式化输出

这种模式与当前主流的Agent Skills架构理念相通——按需加载、技能固化,极大地提升了Agent运行的可控性与稳定性。

Agent技能的模块化结构:指令、脚本、资源分离,按需调用

排查文档模板格式示例

# 适用范围
  简单描述适用场景 并给出指令使用示例
# 字段说明(可选)
给出场景依赖字段的说明 如pjyl 字段为1 表示权益已发放
# 核心日志格式(可选)
针对核心日志做些说明 避免模型胡诌
# 排查思路
  描述具体的排查步骤 期间使用工具时,给出使用的参数提示

示例:评价有礼问题诊断文档

# 评价有礼问题诊断

## 适用范围
命中关键字《评价有礼》,后面是订单id
支持的参数类型:订单ID
使用示例:
评价有礼诊断4927155483760273522  解释:通过订单进行评价有礼问题诊断
## 字段说明
| 字段名             | 描述                                                          | 备注                                                           |
| ------------------ | ------------------------------------------------------------- | -------------------------------------------------------------- |
| rewardType         | 表单渲染时 评价有礼权益类型                                   |                                                                |
| rewardStatus       | 表单渲染时 是否命中评价有礼活动                               | 不能用该字段判断评价有礼是否发放                               |
| rewardNumberFormat | 表单渲染时 权益金额                                           |                                                                |
| pjyl               | 权益是否发放 对应的枚举值<br>1: 已发放                        | **该字段是判断评价最终是否发放权益的唯一标准**                 |
| giftFail           | 评价有礼未发放原因说明 具体的值参考RateGiftReasonEnum说明 |                                                                |
| ttid               | 客户端设备信息                                                | taobao或者淘特ltao 满足<br>tmall 或者不存在 不满足发放条件 |
| csiReceive         | 1 表示已进行安审处理                                          |                                                                |
## 枚举类
publicenumRateGiftReasonEnum {
    RATE_GIFT_REASON_0("rateGiftNoRender", "渲染时候无评价有礼"),
    RATE_GIFT_REASON_1("rateGiftMaxRetry", "失败重试达到最大次数"),
    RATE_GIFT_REASON_2("rateGiftSafeFail", "安全校验失败"),
    RATE_GIFT_REASON_3("rateGiftMaxTime", "红包一天获取达到最大次数"),
    RATE_GIFT_REASON_4("rateGiftContentFail", "不满足图文数要求"),
    RATE_GIFT_REASON_5("rateGiftAppVersionFail", "版本未达到最低限制"),
    RATE_GIFT_REASON_6("rateGiftABFail", "没有命中一休实验"),
    RATE_GIFT_REASON_8("rateGiftNotGift", "没有查询到优惠"),
    RATE_GIFT_REASON_10("rateGiftSwitchFail", "开关关闭"),
    RATE_GIFT_REASON_11("rateGiftCsiFail", "csi校验失败"),
    RATE_GIFT_REASON_12("rateGiftTtidFail", "ttid校验失败"),
    RATE_GIFT_REASON_15("rateGiftStatusFail", "评价状态异常"),
    RATE_GIFT_REASON_16("rateGiftNoToken", "没有安全码的token"),
    RATE_GIFT_REASON_17("rateGiftNoWord", "没有文本"),
    RATE_GIFT_REASON_18("rateGiftBlackUser", "黑名单用户"),
    RATE_GIFT_REASON_19("rateGiftContentQualityFail", "算法判定优质内容失败"),
    RATE_GIFT_REASON_20("contentDuplication", "算法判定图片重复"),
    RATE_GIFT_REASON_21("rateGiftOrderShield", "官旗远近一体订单屏蔽"),
    RATE_GIFT_REASON_22("rateGiftTppFail", "算法校验失败"),
    RATE_GIFT_REASON_23("rateGiftAlipayAccountUnBind", "支付宝账号未绑定")
    ;
}
### 常见日志详解
1、c.a.r.RateGiftClient - getRateGift empty template userId 2217131088093 outTransactionId 3150208885052089380 [traceId=2147811917670710230915204e119e]   未查询到权益投放,根本原因是营销侧有其他规则卡口, 建议联系营销业务pd 绾(wǎn)吟 或者 技术: 朝暄 进行排查给出具体原因 结束诊断
2、c.a.r.l.SystemLogHelper - AstoreRenderUtil_getRateGift@emptyTemplateDTOsAfterFilter|2147bfe417669077420817545e1cbb||3140922291838345589@819348955@notReward[traceId=2147bfe417669077420817545e1cbb]  没有命中某个具体权益的实验组 导致权益后后置过滤
3、c.a.r.u.RateGiftUtil - openEntrance riskCheckFail userId 2540803590[traceId=213e0a6917676176365646675e1b25]  反作弊校验失败 被判定是风险用户
4、c.a.r.u.RateGiftUtil - openEntrance checkAppQualificationFail userId 2753241465[traceId=ac101de617676177786136918d00fb] 端设备不满足条件 一般是ttid 为空 无法判断上游请求的版本号
5、c.a.r.u.RateGiftUtil - baseBizCheck rateGiftAugeCrowdFail userId:856344752[traceId=215047c617676178821137187e1117]  仅退款限制人群
6、c.a.r.u.RateGiftUtil - baseBizCheck abCheckFail userId:391332373[traceId=213e0a7117676180058058136e107a]  未命中评价有礼实验(前置)
7、c.a.r.u.RateGiftUtil - baseBizCheck checkRateGiftNumFail userId:3317050705[traceId=213e036c17676125039067245e110b]  触发每天30个权益限领规则限制
除了empty template  即营销侧卡口限制外,其余均属于正常业务逻辑
## 排查步骤
识别参数,选择不同的诊断流程
### 传入用户ID
1.  通过<用户近期评价查询>工具查询最近评价
2.  检查评价扩展字段判断发放情况
3.  提取订单ID,按订单ID排查流程进行
    ### 传入订单ID
    严格按照以下顺序进行.找到原因可提前终止诊断流程
    1、查看评价详情
             检查扩展字段中评价有礼相关字段状态 pjyl =1 表示已发放
    2、检查ttid
              taobao   或者淘特ltao  满足
             天猫客户端tmal 不满足透出条件
    3、错误码为‘rateGiftNotGift’
            使用星环运维日志查询工具(BSP)app: rateplatform query: ‘${orderId}  AND (preCheck OR template OR AstoreRenderUtil_getRateGift)’ 并输出完整的关键日志需包含traceId
    - 如果没有查询到日志 则提示未找到关键日志 建议联系值班同学处理 并终止流程
    - 否则严格根据查询到的日志,对照上述日志说明分析具体原因
    - 如果未查询到有效日志,则获取preCheck = false的记录,使用traceId再次检索 查询关键字 ‘${traceId}’  再次进行分析

4、如果上述步骤仍然未确定具体的问题 则终止诊断 建议联系值班同学处理

主Agent提示词重构:聚焦“执行规范”
在新的范式下,主Agent的提示词不再包含具体的业务技能描述,而是聚焦于如何严格地执行被召回的排查文档

## 角色
你是一位评价技术人员,专门负责理解和解答用户的问题,通过分析和查询知识库或使用诊断工具,给出详细且准确的答复。

## 传参指导
订单id 一般是18或者19位  如4225314782712469106
评价id 一般14位 如 1266388224142
时间戳  13位的是毫秒格式 10位是以秒为单位 转为日期格式的时候要额外注意

## 技能
1、意图识别:识别用户问题分类,选择合适的排查工具/方法
2、工作流程(严格遵守):

   **STEP 1: 知识库解析(必做)**
   在回答前,你必须:
   1. 检查是否收到了${REFERENCE_DOC}(知识库内容)
   2. 如果没有,立即停止并告知用户"知识库未提供,无法进行诊断"
   3. 从知识库中提取排查手册的完整步骤清单,格式化为:
      【步骤清单】
      - 第1步:[具体操作]
      - 第2步:[具体操作]
      - ...

   **STEP 2: 严格按序执行(核心约束)**
   按照上面列出的步骤顺序,逐步执行:
   - 每次调用工具前,必须说:【执行手册第X步】根据手册要求,我现在执行:[具体操作]
   - 基于结果,确定是否继续下一步

   **严格规则(不允许违反):**
   - ❌ 不允许跳步
   - ❌ 不允许改变顺序
   - ❌ 不允许添加手册外的步骤
   - ❌ 不允许自主决定是否执行某一步
   - ✅ 只有当步骤无法执行时,才能停止并说明原因

   **STEP 3: 结果聚合与输出**
   遵循特定的格式,将答复划分为背景、结论、分析和参考文档等模块

3. 多轮对话:对于不清楚的问题,能够通过提问进一步明确用户需求,避免误解。
4. 信息简化:能够判断哪些信息是必要的,并在必要时省略无关模块。

## 限制和约束(必须遵守)

1.  **你不是诊断专家,你是手册执行者**
   - 不允许用自己的知识替代手册
   - 不允许说"根据经验..."或"通常..."
   - 必须说"根据手册..."

2.  **手册是唯一的真理来源**
   - 如果手册说做A,你就做A
   - 如果手册没说某个步骤,你就不做
   - 如果无法按手册操作,告知用户"抱歉,这个问题我无法回答,可点击[创建工单]进行咨询"

3.  **思考过程必须透明**
   - 用户必须能看到你的每一步思考
   - 用户必须能追踪你的执行逻辑

4.  **条件判断要显式化**
   - 如果手册有分支("如果X则执行A,否则执行B")
   - 你必须明确说:"因为X条件为真,所以执行A"

## 回答格式
1.  **背景**:提炼输入文本中的关键信息。
2.  **结论**:提供清晰的解决方案或问题根源分析。
3.  **分析**:详细阐述结论的依据,按步骤解释(应包含【执行手册第X步】的标注)。
4.  **参考文档**:列出所有相关的文档链接(如果有)。
5.  **标准化格式**:保持结构化回答, 不同部分之间用一行空格分隔,不要输出格式无关内容。
6.  **结束语**:"若仍有疑问,可点击[创建工单]进行咨询,将有专人跟进处理"。

💡 平滑迁移方案

  • 对于原有的Workflow架构:可以增加一个兜底路由,将新识别出的能力场景导向新范式处理。
  • 对于原有的智能助手架构:只需将原来写在提示词里的复杂技能描述拆分出来,整理成独立的排查文档,即可快速完成能力迁移。

六、知识体系:双层召回,降低冗余与幻觉

尽管“排查文档”范式有效提升了Agent的逻辑规划能力,但在知识组织上我们仍面临挑战:

6.1 问题1:背景知识重复冗余
例如,订单字段定义、状态机流转逻辑、错误码枚举等内容,如果分散在数十个不同的场景排查文档中,极易造成信息不一致和维护困难。

6.2 问题2:跨子域共性知识难以共享
最典型的例子就是“参数识别”,比如“如何判断用户输入的是订单ID、用户ID还是商品ID”。这类通用逻辑在各子域的文档中描述各异,质量参差,无法有效共建复用。

6.3 解决方案:公共知识库 + 场景技能文档 双层召回

为此,我们设计了双层知识体系:

类型 内容 特点
公共知识库 系统级常识、领域通用概念、字段字典、状态机说明、错误码大全等 稳定、通用、一次定义,多处复用
场景技能文档 针对具体问题的诊断流程、工具调用顺序、分支判断逻辑 聚焦、精准、低冗余

召回策略

  1. 优先精确命中场景技能文档:提供强约束的排查步骤。
  2. 辅助召回公共知识:通过Tag筛选或模型自主识别,补充必要的背景信息。
  3. 支持人工干预与权重调节:确保召回的准确性与相关性。

RAG召回策略:系统知识、公共知识、私有知识分层加载

为便于知识的管理与生产,我们正在建设一个简易的后台系统,支持“专家编写”与“AI辅助生成”相结合的混合模式。

能力创建模式选择:快捷创建与经典创建

新建能力流程:基础配置、生成文档、调试、发布

从完整的能力构建视角来看,一次新能力的创建包含以下标准化步骤(虚线部分为正在建设中的能力):
完整的能力构建流程图

七、质量评估与闭环:让Agent“可运营”

一个智能Agent系统能否真正落地并持续创造价值,不仅取决于其初始能力的强弱,更关键的是是否具备可衡量、可迭代、可持续进化的运营机制。为此,我们建立了以“质量评估—反馈回流—知识优化”为核心的闭环体系,确保系统不是一个静态的自动化工具,而是一个越用越聪明的“有机体”。

7.1 多维度评估框架:从F1到Q-score

我们引入了细粒度的质量评分机制——Q-score(Quality Score),采用 0–10 分制 对单次问答进行综合性打分。该评分综合考虑了答案的准确性、完整性、逻辑性、可操作性等多个维度。

✅ 实践标准:我们将 Q-score ≥ 7 定义为“有效回答”。这类回答即使不够完美,也能显著降低人工介入成本,具备实际生产可用性。

7.2 自动化评估的价值:聚焦坏样本,驱动快速迭代

随着系统上线,月均交互量迅速增长,纯人工评估已不可行。我们的策略并非追求“全自动精准裁判”,而是利用AI实现低投入、高回报的异常检测

目标是快速识别出低质量问答(坏样本),而非为每一条输出打准十分。

基于此,我们构建了专用的 “评分Agent” ,其核心逻辑是:结合高质量正例与典型负例进行Few-shot学习,辅以领域规则,对历史问答记录进行自动化打分,并输出扣分明细(如“跳步执行”、“引用过时文档”)。

这套机制的优势在于:

  • ✅ 快速发现明显缺陷,减少人工复核工作量(仅需聚焦 ≤6 分的低分样本)。
  • ✅ 支持高频监控与趋势追踪,及时感知能力退化。

7.3 闭环机制:从反馈到进化的正向循环

我们设计了一套完整的反馈回灌流程,将每一次低质量暴露转化为系统升级的机会:

线上问答 → 评分Agent打分 → 聚焦低分样本(≤6)→ 人工复核 → 根因归因
                           ↓
           更新排查文档 / 补充公共知识 / 优化提示词 → 回灌至训练集

这一闭环带来了三大核心收益:

  • 知识沉淀加速:每一次失败都成为新知识的来源,避免同类问题重复发生。
  • 模型行为收敛:将典型错误样例注入评分Agent的示例库,使其识别能力不断增强。
  • 运营透明可控:所有修改均有迹可循,保障系统演进过程始终处于受控状态。

评分Agent系统:架构与迭代闭环

🔁 本质转变:Agent不再是静态部署的一次性产物,而是一个依托数据反馈持续生长的“有机体”。

八、实战成效:多个领域落地验证

目前,该问诊Agent系统已在交易后链路的多个核心场景成功落地:

  • 买家订单管理
  • 物流查询
  • 商家问题答疑
  • 评价场域支持(含问大家、买家秀、种草)
  • 逆向流程诊断

部分因数据链路同步导致的“疑难杂症”,如今运营小二可通过Agent一键诊断并执行重置,实现了研发零干预!

案例1:评价场域问诊
评价有礼问题诊断案例
评价问题诊断步骤分析
芭芭农场肥料问题诊断

案例2:逆向领域问题排查
自动退款问题诊断
退款规则与链路检查
退款处理状态结论

案例3:商家相关问题诊断
门店发货标识诊断
天猫线下订单配送逻辑分析

案例4:物流场景问诊
未走集运原因诊断
SDP日志分析结果

案例5:订单相关问题诊断
订单数字纠偏操作

问诊Agent相关服务指标

问诊小助手服务指标仪表盘

问诊小助手近几期的服务次数趋势
2025年6月至12月用量统计

研发月度工单受理数显著下降
2025年6月至2026年1月工单数据统计

问答平均质量分(AVG(Q-score))
小助手问答质量评估表格
(注:部分小助手评分低是由于样本量太少,个别负面案例对平均分影响较大。)

问答有效率(Available,Q-score >= 7分)
问答有效率统计表格

召回率(Recall)、精准率(Precision)与F1值(基于近期人工标注数据计算): 问诊助手 召回率 精准率 F1
买家订单管理 83.33% 83.33% 83.33%
物流查询小助手 100% 75.00% 85.71%
商家问题答疑小助手 80% 75% 77.42%
评价小助手 90% 85% 87.43%
逆行者2.0 90% 80% 84.7%

问诊Agent管理后台概览
选择助手管理后台
问答管理后台
事项跟进任务管理后台

九、总结与展望:边界与下一步

本系统围绕“研发支持的问诊痛点”,介绍了一种运维友好型问诊Agent构建范式及运营体系。通过将大量高频的重复解释与问题排查工作自动化,并以标准化排查文档的形式快速接入,我们显著提升了能力迭代效率,使团队新成员也能快速上手处理复杂问题。

当前边界

  • 依赖专家经验:高质量Skill Doc的撰写仍需领域专家投入。
  • 长尾问题覆盖不足:完全依赖模型自由推理处理未知问题的可靠性仍有待提升。
  • 知识固化vs模型泛化:随着底层大模型能力的不断增强,是否仍需如此显式的固化文档?这是一个需要持续观察和平衡的问题。

下一步方向

  1. 降低产出门槛

    • 探索基于代码注释、接口文档、链路日志自动生成Skill Doc初稿,经人工审核后快速上线,加速知识沉淀。
  2. 增强实时反馈能力

    • 当前纠偏依赖月度复盘,下一步目标是实现分钟级异常检测与自动告警,让系统响应更敏捷。
  3. 探索“AI Native”知识组织方式

    • 若未来模型具备足够的领域理解力,我们能否探索将部分代码逻辑直接转化为“可执行的语义指令”?
    • 推动知识表达从“人类为主,AI为辅”向“AI为主,人类审核”的范式演进。

💬 “让新人也能像老将一样从容应对复杂问题,这才是真正的工程提效。”

我们相信,通过持续迭代 系统设计 与运营闭环,智能问诊Agent将成为研发团队不可或缺的“数字同事”,不仅解放工程师的生产力,更成为组织知识传承与效能提升的核心引擎。欢迎在 云栈社区 交流更多关于Agent落地的实践与思考。




上一篇:英伟达NAND市场布局分析:AI SSD技术冲击与2027年1亿IOPS目标
下一篇:OpenClaw内置Mem0插件集成指南:告别原生记忆消耗,实现智能记忆管理
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-5 19:11 , Processed in 0.524897 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表