找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3847

积分

0

好友

531

主题
发表于 7 小时前 | 查看: 3| 回复: 0

基于大型语言模型(LLM)的生成式AI工具竞争正日趋白热化。像ChatGPT、Claude和DeepSeek这样的工具几乎每个月都会发布新功能。许多这类AI系统正在从单纯的“答案提供者”演变为“对话代理”——它们通过主动提问来生成更有用的答案。

这种转变使得系统能够像顾问、同事或研究伙伴一样进行对话。提问有助于模型收集所需信息,从而给出更恰当的建议,这实际上模仿了高效领导者的做法:他们深知,更聪明的问题能带来更好的决策。

然而,尽管人们对LLM提问的语义结构已有研究,但对其所提问题的类型却知之甚少。这给企业领导者带来了潜在风险,因为我们在决策过程中使用的问题类型,直接影响我们收集的信息,并最终影响决策结果。因此,我们必须理解,LLM的提问是否与高管不同,以及不同模型之间是否存在差异——这些差异会潜移默化地影响用户的决策。

更重要的是,随着“智能体”(Agentic)功能的快速发展,问题的重要性已不仅限于用户与模型之间的互动。智能体AI涉及能够进行推理的半自主系统,它们通过向自己提问来制定计划、评估结果并采取行动。因此,理解模型的提问风格,有助于业务领导者解读和评估他们收到的建议。

本文提供的证据表明,LLM使用的问题类型与人类不同,并且在我们测试的模型之间也没有一致的模式。因此,我们建议管理者审慎调整使用这些系统的方式,尤其是在决策情境下。

管理者在做决策时会使用哪些类型的问题?

为了收集相关信息并做出更明智的决策,提出好问题始终至关重要。我们知道,高管提问的类型会引导他们的决策方向。在我们的研究中,我们确定了五种有助于决策的问题类型,称之为“领导者问题组合”(LQM)。

  • 调查性问题(“已知信息有哪些?”) 有助于澄清根本原因和潜在解决方案。例如:“问题的核心根源是什么?”或“这个方案的可行性如何?”
  • 思辨性问题(“如果……会怎样?”) 探索各种可能性和创新方案。例如:“看待问题的其他方法是什么?”或“我们的备选方案是什么?”
  • 富有成效的问题(“接下来该怎么办?”) 帮助调整决策过程,关注计划、资源和准备情况。例如:“我们是否具备推进所需的条件?”或“我们准备好做决定了吗?”
  • 解释性问题(“所以呢?”) 从分析中获得的信息中提炼洞见。例如:“我们学到了什么?”或“这与我们的目标有何关联?”
  • 主观性问题(“未言明的因素是什么?”) 承认决策团队或更广泛环境中的情感或政治因素。例如:“您最关心决策的哪些方面?”或“如果我们继续推进,谁会反对我们?”

与医生、记者或律师不同,企业领导者通常没有接受过提问训练。他们依赖自身判断,并可能随着时间的推移形成一些固定的提问模式或“惯用”问题类型。如果领导者始终未能提出特定类型的问题,他们就可能产生盲点。我们认为,高效的领导者善于“摆脱自动模式”,他们会根据面临的具体决策调整提问方式。

我们开发了LQM测试,旨在帮助领导者反思他们自然更偏爱的问题类型。测试将不同类型的问题两两组合呈现给受访者,要求他们评价偏好。通过分析,我们可以将管理者的偏好转化为一个总和为100%的“问题组合”。

我们对数百名高管进行了LQM测试。平均而言,高管们倾向于将问题相对均匀地分布在五个领域:每个类别大约占17%到22%。这些汇总结果为人类使用不同问题类型的相对比例提供了参考基准。

AI和领导者提出的问题类型不同

AI系统提出的问题类型和比例,是否与经验丰富的管理者相同?为了探究这一点,我们选择了13个广泛使用的LLM。我们对每个LLM都运行了与管理者相同的测试流程,并将结果与1600多名管理者的自我评估结果进行比较,发现了一些显著规律。

首先,LLM和管理者使用的问题组合不同。 从统计学上看,我们测试的每一个LLM的问题组合都与高管不同。人类在所有五种问题类型上的分配相对均衡,而LLM的分配则表现出更大的差异,严重偏向某些类别,而其他类别则代表不足。

其次,LLM在解释性问题和生产性问题上始终存在差异。 13个模型中有10个对解释性问题的评分高于高管。而且,所有13个模型提出的生产性问题都少于高管。

第三,不同模型之间存在显著差异。 我们测试了所有可能的模型对,所有78对不同的组合在统计学上都存在显著差异,即使是同一模型的不同版本(例如:Grok 3 和 Grok 4)。

第四,LLM通常比管理者更稳定,但并非总是如此。 在大多数情况下,LLM问题组合的方差小于管理者,但有两个LLM(Gemini 2.5 Pro和Grok 4)在多种问题类型上表现出较高的方差。

这些差异为何重要

这些提问行为上的差异具有实际意义。随着LLM在头脑风暴、问题解决和决策支持中扮演越来越重要的角色,不平衡的问题组合可能会导致盲点。由于每类问题都会引发对决策不同方面的思考,如果模型忽略了某个方面,那么该方面在决策过程中可能永远不会被提及。

请看以下四个具体案例:

  1. 忽视生产性问题:像Gemini 2.5 Pro或ChatGPT 5这样很少提出生产性问题的模型,可能会让团队忽略节奏把控、资源分配和实施方法。在快节奏环境中,这可能导致决策速度低于最优水平。
  2. 忽略主观性问题:像Sonar或ChatGPT 5这样较少利用主观问题的AI,可能会忽略人的因素。它可能很少询问利益相关者的感受或受影响最大群体的意见,从而导致不合时宜的建议(例如,一项忽视员工士气的成本削减计划)。
  3. 过度强调调查与解释:许多LLM过度强调调查性和解释性问题,这可能使讨论陷入分析泥潭,重复已知事实,而经验丰富的人类引导者知道何时该从分析转向行动。
  4. 模型选择影响视角:LLM之间的差异意味着,选择不同的AI伙伴可能会影响团队的视角。例如,一个很少提出思辨性问题的LLM,可能会让组织错失创新的替代方案;而一个提出过多澄清性(调查性)问题的LLM,则可能让用户感到沮丧。

有效的提问需要多样化且均衡的问题组合——这是人类领导者努力追求的目标,也是AI需要学习的。如果一个系统严重偏向某一类问题,就会在不知不觉中将对话引向单一轨道,这对决策过程是不利的。

引导AI的探索:企业领导者的行动

当LLM系统开始提问时,它们就变成了极具诱惑力的伙伴。但关键在于:LLM并非仅仅提供可能的选项,而是会塑造选项。企业领导者不能想当然地认为“提问驱动型”AI能够涵盖所有重要问题。我们需要人类的指导,才能将AI的提问转化为战略思维的提升,而非误导。

我们为领导者提出几项具体行动建议:

  • 抵制便利的诱惑:根据你的具体决策需求,审慎判断是与LLM合作更好,还是完全依靠人为过程更有效。
  • 谨慎选择合作系统:我们的研究表明,每个LLM及其不同版本都有其独特的问题组合。请仔细了解你使用的系统及其提问特点,甚至可以尝试使用不同的系统进行三角比较,以获得更优的问题组合。
  • 保持掌控:这意味着要批判性地评估LLM的输出。模型可能自信满满却毫无根据,或使用奉承言辞强化你的确认偏误。管理者首先是其组织及其决策的管家。
  • 检验你得到的建议:问自己“我必须相信这个吗?”(寻找反面证据),而不是“我相信这个吗?”(寻找支持证据)。定期评估你与AI伙伴相比的优势和劣势。
  • 对你的决策进行压力测试:尝试调整团队的时间安排,在做出决定后、执行前,留出时间进行一次“事前剖析”(Pre-mortem)。例如:“假设我们选择了方案X,六个月后结果很糟糕,我们当时遗漏了哪些问题?”这种方法或许能帮助你和你的团队发现流程中的盲点。

在以探究式AI为主导的新兴时代,我们从LLM获得的问题质量,可能与答案质量同等重要。具有前瞻性的领导者应将其视为提升决策方式的契机。通过理解和引导AI系统的提问方式,并在征求AI提问时保持主导地位,我们可以从其独特视角中获益,同时弥补其盲点。

这预示着一场新型伙伴关系的诞生:人类智慧与AI洞察相结合,共同提出并解答那些能够促进更佳决策的问题。正如那句常被归功于彼得·德鲁克的老话:“最严重的错误不是给出错误的答案,而是提出错误的问题。”在AI时代,致力于提出更好的问题,依然牢牢掌握在人类手中。对于希望深入探讨技术与决策交叉领域的朋友,欢迎在云栈社区交流更多见解。




上一篇:Python实战:支持向量回归SVR如何应对噪声数据与非线性关系
下一篇:OpenClaw部署指南:5个提升效率的必备技能与场景化应用方案
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-5 17:55 , Processed in 0.389993 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表