找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4651

积分

1

好友

642

主题
发表于 3 小时前 | 查看: 3| 回复: 0

我以前也尝试过用 AI 来生成视觉笔记(草图笔记),比如 Stable Diffusion、Midjourney,但由于过去的 AI 绘图工具往往无法正确处理文字,那些尝试最终都以失败告终。但随着 Nano Banana 2 承诺会有更好的文字表现,我决定再试一次。

这次我输出了两幅图,分别是 AI Infra含义草图笔记《美国权利法案》草图笔记。之所以选择 AI Infra,是因为这对 AI 来讲是一个非常基础的知识,我希望一次就生成我想要的,事实也确认如此。选择《权利法案》,是因为它不仅是美国的法案,理论上AI获取的信息会更准确,而且每一项权利都非常适合视觉化呈现。

我订阅了每月 20 美元的 Google AI Pro 会员,在 Nano Banana Pro 之外,这次直接调用了 Nano Banana 2 模型。

AI Infra 草图笔记:一次成功

这是我给 AI 的提示词:

给我画一个关于AI Infra原理的草图笔记,AI先输出的一段对AI Infra的理解,然后再输出图。

AI 首先输出了一段对 AI 基础设施的理解,随后生成了下面这张图。

AI基础设施原理手绘信息图
(AI Infra 原理草图笔记)

应该说这个图的理解相当准确,完全符合现代 AI 基础设施 的工程实践。它清晰地分为了计算、存储、网络和软件栈四个部分,非常适合用来理解 AI 系统的底层架构。我还特意让阿里千问、豆包等模型帮我审核这张图的逻辑和内容结构,同样得出了肯定的结论。当然,它们也提出了一些细节上的补充建议,比如增加安全模块、修正术语混淆等。

《美国权利法案》草图笔记:六次迭代优化

另一幅图的生成过程就曲折多了,我前后试了6次才得出最终满意的结果!

我的初始提示词是:

为我制作一张关于《美国权利法案》(US Bill of Rights)的视觉笔记。

第一次生成的图如下:

美国权利法案第一版草图笔记
(第一次输出的法案草图笔记)

图中使用了类似荧光笔涂抹出的柔和色调,字体和插图风格也很契合。但问题也很明显:总结部分在两个圆圈中重复出现了数字“5”,并重复了第五修正案的部分内容,同时在第五修正案之后,编号从阿拉伯数字切换到了罗马数字。

我觉得把标题放在中间、各项权利环绕四周的布局会更好,于是优化了提示词:

为我制作一张《美国权利法案》的视觉笔记。将标题居中,放在一个手绘的形状或物体里。在四周展示各项数据元素。

第二次的生成结果在布局上有所改进,但新问题出现了:权利的顺序全乱了,并且阿拉伯数字和罗马数字随机混杂在一起。

美国权利法案第二版草图笔记,编号顺序混乱
(第二次输出的法案草图笔记)

针对数字问题,我进一步明确要求:

为我制作一张《美国权利法案》的视觉笔记。将标题居中,放在一个手绘的形状或物体里。在四周按顺序展示各项数据元素,并使用阿拉伯数字标示每一条条款。

第三次的结果依然不理想。条款没有按数字顺序排列,出现了数字“1”的重复,并且夹杂了罗马数字“VIII”和“7”。

美国权利法案第三版草图笔记,存在重复编号
(第三次输出的法案草图笔记)

我没有再重复整个提示词,而是开始针对它之前的错误进行纠正。第四次尝试后,我给出了更具体的反馈:

刚才那张图有些错误。请按数字顺序排列这些条款,从 1 到 10。不要在彩色小圆圈外重复显示条款编号。请使用经典的荧光笔颜色来高亮标题。在生成图像之前,请仔细核对条款顺序,并避免重复呈现。

第五次的结果纠正了标题高亮和部分编号重复问题,但顺序依然不对。

美国权利法案第五版草图笔记,编号顺序仍不正确
(第五次输出的法案草图笔记)

最后一次,我直接给出了明确的布局指令:

这张图大部分都正确了,但请将第 1、2、3、4 条按顺序排列在顶部,然后将第 5 条放在居中标题的左侧,第 6 条放在标题右侧,最后将第 7、8、9、10 条按顺序排在底部。图中任何地方都不要使用罗马数字。图中任何地方都不要重复使用同一个数字。

最终,经过六次迭代,我得到了一张完美的视觉笔记:

美国权利法案最终版完美草图笔记
(第六次输出的最终版法案草图笔记)

体验总结与思考

从这两次实践来看,Nano Banana 2 在文字生成和逻辑可视化方面确实展现出了惊人的能力,尤其在理解并生成像 AI Infra 这样复杂的 技术架构图 时,几乎一次成功。但在处理有严格顺序要求(如法案条款)的内容时,仍然需要使用者通过精准、多轮的提示词去引导和校正。

整个过程也体现了 提示词工程 的重要性:从最初的宽泛描述,到逐步加入布局、编号、顺序、样式等具体约束,最终才能“调教”出符合预期的结果。尽管这些高级功能需要付费,但对于需要快速产出高质量视觉化内容的工作者来说,无疑是值得的。

后续我还会继续记录和分享更多 AI 工具的使用体验与 提示词 技巧,如果你对这类内容感兴趣,欢迎到 云栈社区 的开发者广场板块一起交流讨论,共同学习复现。




上一篇:基于C# WinForms与NAudio打造50ms超低延迟工业内网语音通信系统
下一篇:从离职同事返岗尴尬场面,聊聊算法面试中的动态规划思路
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-26 22:40 , Processed in 0.619727 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表