找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4957

积分

0

好友

676

主题
发表于 1 小时前 | 查看: 5| 回复: 0

本系列分上下两篇:

  • 上篇:人类的认知协议,AI 如何服务于人
  • 下篇:世界的物理接口,AI 如何链接万物

在深入探讨之前,我们先明确一个前置问题:Prompt 是什么?

简单来说,Prompt 是翻译官,它填补了人类与 AI 之间巨大的认知差异。

人,擅长具象思维,习惯于用类比的方式,借由已知事物去理解未知。

例如,如果小朋友问“什么是卡兹克?”
我可能会说:“一个螳螂,游戏里的,不耐揍”。

注意,这里我引入了一个小朋友可能见过的具体事物——“螳螂”,然后加上“游戏里的”、“不耐揍”等限定词,构建一个认知模型。

《英雄联盟》游戏角色“卡兹克”概念图

而 AI 的认知方式截然不同,它本质上是概率的集合。在 AI 眼中,世界是概率性的,它的核心工作是不断预测下一个最可能的词。

对于“卡兹克”,在类似 GPT 的模型内部,它看到的可能是一连串复杂的概率分布。

AI模型预测下一个词的概率分布界面截图

正是这种根本的思维方式差异,催生了 Prompt 工程。它的核心作用是:通过定义角色、约束范围、明确目标,将模糊的人类意图,转化为 AI 可执行的指令。

但这只解决了问题的一半:AI 理解人类了,但人类依然不理解 AI。

当 AI 回应人类时,它往往仍按其“本能”输出,很少主动考虑人类的认知需求:

  • 人类喜欢多感官信息:我们说话时,会用语气、表情、手势来传递丰富的情感与潜台词。
  • 人类需要清晰的结构:阅读时,我们偏爱合理的分段、标题、标注重点,而非一望无际的纯文本。
  • 人类注意力有限:就像上高数课,如果前一句话没听懂,后面可能就彻底跟不上了。
  • 人类珍视情感共鸣:听故事时,让我们笑过、哭过的情节远比干巴巴的事实和数字更容易被记住。

Prompt 让人类更好地“使用”AI,而 AI 产品设计的下一步,是让 AI 更好地“服务”人类。关键在于:在设计 AI 产品时,基于人类的认知协议,去做更深层次的双向适配。


人是感官动物

先看下面这段典型 AI 生成的枯燥文本,恐怕没人有耐心读完:

从基础模型到实际应用的关键环节。基础模型通过模型厂商利用海量数据训练的大规模语言模型,为 AI 应用提供基础能力。它奠定了 AI 应用的性能上限。在基础模型的基础上,通过引入专业领域数据进行模型微调,由专业用户针对特定领域优化模型,提升专业场景的准确度并降低错误率。为了进一步增强模型的能力,加入知识增强技术(RAG),通过模型自动实时检索外部知识库并融合生成回答,从而显著降低幻觉现象,并提供可溯源的准确信息。在终端应用中,通过提示词优化技术,用户可以通过优化输入提示直接影响输出质量,这是最容易掌握的优化方法。

再看下面这段,同样是 AI 生成,却一目了然:

AI 系统演进图解

从基础模型到实际应用的关键环节

AI系统演进分层图解

区别在哪?

  • 信息载体:不再是单一文本,而是有重点、结构化的图文组合。
  • 呈现逻辑:先用版式建立视觉关联,再用分层动画辅助理解流程,最后才是文字补充细节。
  • 核心目标:通过这种方式,极大降低了用户的认知负担和阅读压力。

于是,业界开始探索更丰富的多模态交互方式,尝试将图形界面 (GUI)、语言界面 (LUI)、乃至声音界面 (VUI) 更融洽地结合。

这里有两个来自近期 OpenAI 开发者大会的生动例子:

场景一:数据库构建的混合交互

Supabase 在其最新产品中,允许用户通过鼠标点选和自然语言描述,快速修改数据库结构或生成查询语句。这种交互既保留了 GUI 的直观可控,又融入了 LUI 的灵活高效。

Supabase数据库界面结合自然语言操作的演示
Chatbot,也可以和 GUI 深度融合。

场景二:实时天文解说与操控

OpenAI 发布的 Realtime API 近期支持了 Function Calling。这意味着即便在语音交互中,AI 也能执行操作电脑、联网查找资料等复杂功能。发布会现场演示了如何“言出法随”般地操控太阳系天体模型进行实时解说。

通过语音实时操控太阳系天体模型的界面
现场声控演示,效果惊艳。

这些有趣的探索,其目标不再是单纯的信息传递,而是试图让 AI 的交互方式贴近人脑的思考和表达习惯:

  • 纵向:学会先说结论、再谈支撑、最后展开细节。
  • 横向:在恰当时机调动视觉、动画、声音等多种感知通道。

多种感官输入并非简单堆砌,而应像交响乐般默契配合。或许,优秀的 AI,不仅应该更“智能”,还应该更“自然”——更贴近人类固有的认知协议。


人,头脑简单,要顺着

我们的大脑天生热衷于叙事,总是试图将零散的事件编织成连贯的故事。

例如,当一个公司突然倒闭,我们总能在事后“总结”出一套完整的衰落史,比如“从更换 CEO 开始就错了”、“转型做 To B 注定失败”。我们宁愿相信一个漏洞百出的因果故事,也不愿承认很多事只是无数偶然的随机叠加。

将世界地图轮廓幽默联想为一只猫的梗图
我们的世界,又何尝不能被看作一只猫?(一个有趣的认知框架示例)

但这并非坏事。依赖经验和“刻板印象”能为我们节省大量认知精力:

  • 挑选餐厅时,选人多的,食材新鲜、味道不错的概率确实更高。
  • 面对新概念时,我们会不自觉调用已知经验进行类比:把“电流”类比为“水流”,用“烧开水”理解大气环流,以“太阳系”模型想象原子结构。

类比虽不精确,却是我们理解新事物不可或缺的“脚手架”,帮助我们从熟悉的安全区过渡到陌生的知识领域。

用蹦床凹陷模拟引力场扭曲的物理教学实验
用常见的蹦床,来模拟抽象的广义相对论概念。

同时,我们的工作记忆容量极其有限。手机号“13812345678”会被自动分段记为“138-1234-5678”。更重要的是,脱离场景的知识很难被牢固掌握:

  • 狼人杀规则看十遍不如玩一局。
  • 麻将的胡牌公式背下来也没用,得上牌桌搓一把。
  • 编程概念看书百遍仍模糊,动手做个项目瞬间清晰。

如果知识不能与实际操作或具体场景结合,就很难形成长期记忆。

麻将胡牌公式教学图
网传的麻将胡牌公式,但只看公式永远学不会打牌。

这些都是由进化塑造的认知特性,优秀的 AI 产品设计应当顺应这些特性:

  • 故事化:将并行、复杂的信息编织成引人入胜的叙事。
  • 善用类比:用熟悉的事物解释陌生的概念,降低理解门槛。
  • 控制节奏:精细调控信息密度,避免让用户大脑“过载”。
  • 创造场景:为知识找到“用武之地”,帮助用户在实际应用中内化。

人是情绪动物

情绪,是我们认知世界的重要工具,甚至是我们所谓“理性”的底色。

人类对世界的认知总是伴随着情感的投射。古人将雷电想象为天神震怒,现代人会为自己的爱车、玩偶起名字。最近爆火的 AI 小程序《灵魂提取器》,正是抓住了这种心理:上传物体照片,AI 将其转化为拟人化角色。

这并非幼稚,而是深植于基因的认知捷径:用情感化的方式,快速理解并与世界建立联系。

当信息伴随情感时,大脑会调动更多资源来处理它:杏仁核标记情感价值,海马体加强记忆存储,前额叶也会优先分配注意力。这套机制帮助我们快速决定什么值得关注、什么应该记住。

而在面对决策时,大脑会自动调用过往的情感经验作为依据。这或许不够“理性”,却能在复杂环境中帮助我们快速决断。

须知:情绪不是理性的对立面,而是认知的催化剂。 未来最成功的 AI 产品,必然兼具两大能力:既能冷静地解决问题,又能巧妙地触动人心。


人,注意力有限

沉浸式翻译的作者 Owen 曾提到一个观点:“最宝贵的,是注意力自由。” 确实,人的精力是稀缺资源,我们每天能专注完成的事情非常有限。

所有关于“麻烦”、“心累”的抱怨,本质上都是“人”与“事”的交互过程出现了摩擦,而这正是产品创新的机遇。

以我个人的经历为例:我不擅长前端开发。过去,我需要让 ChatGPT 生成代码,然后手动粘贴到 IDE 中,遇到错误再返回去询问、调整……如此循环,大量注意力消耗在切换环境和机械操作上。

而使用 Claude 的 Artifact 功能,代码可以直接在对话界面渲染出可视化结果,省去了无数不必要的上下文切换。

Claude Artifact 功能直接渲染出网页效果的界面
让 AI 直接生成可交互的预览,而不仅仅是代码文本。

平台如 bolt.new 则更进一步,将完整的开发环境搬进浏览器。我曾用纯自然语言描述,让它帮我构建一个用于对比不同 LLM API 响应的工具。这若正常开发,可能需要一周,而在这种高度集成的环境中,想法得以快速验证。

在 bolt.new 平台中构建的 LLM API 对比工具界面
将构思快速转化为可用的工具原型,极大释放了创造力。

在内容消费层面,如何适配用户有限的注意力同样关键。优秀的“响应式设计”会根据设备屏幕尺寸,动态调整内容的布局和呈现重点。

随着 AI 的加入,我们有望迎来 “响应式 AI”:它能根据用户当前的使用场景、设备状态甚至个人偏好,动态调整信息呈现的方式和交互的形态。例如,在嘈杂环境中侧重视觉提示,在运动场景中转为清晰的语音摘要。

这标志着一个根本的转变:产品从被动等待用户分配宝贵的注意力,转向主动优化用户的认知资源消耗。


迈向“人类认知协议”的 AI 设计原则

我们传统的内容表达形式——文字、静态图表、简单问答——已无法充分发挥 AI 的潜力,甚至成为了 AI 深度融入工作流的障碍。

是时候重新审视设计原则,构建以人类认知协议为中心的 AI 交互范式:

  1. 分层化理解:大脑习惯先抓主干,再究细节。AI 的输出应建立清晰的逻辑分层:核心结论直接呈现,支持论据其次,深度细节作为可选的扩展。就像一份技术方案,应先让人看到效果,再了解原理,最后决定是否深究实现。
  2. 动态化表达:比起静态文字,动态、视觉化的信息更符合我们的认知偏好。利用多模态能力,用图表简化关系,用动画展示过程,用声音强化提醒。这些形式应协同工作,并且,积极利用 Function Calling 等能力让 AI“动手操作”,而不仅仅是“动口描述”。相关的实现方法和最佳实践,在社区的技术文档板块常有深入探讨。
  3. 情感化注入:情感是信息的最佳“粘合剂”。当内容带有恰当的情绪色彩时,大脑的理解和记忆会本能加深。这意味着 AI 需要学习表达的“艺术”,不仅提供答案,更在合适的时候唤起共鸣,让交流更有温度。
  4. 双向化交互:传统信息展示是单向的“独白”,而 AI 使内容变成了双向的“对话”。通过实时交互和即时反馈,用户不再是信息的被动接收者,而是共同的探索者和创作者。
  5. 响应式适配:AI 的输出不应千篇一律。它应像变色龙一样,自适应环境:在手机上它是简洁的决策助手,在电脑前它是全面的分析伙伴;通勤时它提供音频摘要,会议前它生成视觉提纲。始终以最适应场景的方式传递价值。

认知即接口。 当我们不断探索并顺应人类的认知模式,就能设计出更自然、更高效的人机交互。AI 未来的输出,或许将不再是一个冰冷的“答案”,而是一种沉浸式的、符合直觉的 “体验”

正如在云栈社区开发者广场里大家常讨论的那样,技术的最终归宿是让人感受不到技术的存在。围绕人类认知协议进行设计,正是通往这个未来的关键路径。




上一篇:特斯拉AI5芯片流片成功:量产延至2027年,台积电三星双代工策略曝光
下一篇:海外开发者凌晨蹲守GLM Coding Plan,怎么AI编程套餐也搞起‘护照税’了?
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-18 22:46 , Processed in 0.613528 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表