这篇内容整理了我近几个月在 AI 学习、AI 工具试用与落地实践中的一些关键结论,覆盖方向包括:AI 编程、AI 辅助写作、AI 深度研究、AI 多模态、AI 智能体开发、AI 赋能产品等,并补充了若干实际效果与踩坑点。

0. 一个前置原则:长期坚持 + 深度使用
AI 工具要想真正产生复利,更适合「长期坚持」和「持续深入」的使用方式,而不是碎片化试用一圈就结束。只追求广度,往往会停留在“好像挺强”的感受层,难以把能力转化成稳定产出。

1. AI 编程:从自然语言写代码到工程化协作
三年前我就开始尝试“自然语言对话生成代码”,当时的流程是:用 GPT 生成代码 → 导入编辑器 → 再手工调整。我用这种方式生成过爬虫程序,完成公众号/头条号文章的离线下载。
但真正的效率提升,核心还是要过渡到更工程化的 AI 编程工具链。

1.1 常用 AI 编程工具与模型体验
- 早期使用:Copilot、通义灵码
- 后续重点:Cursor(优势在于可挂接不同大语言模型)
经过一段时间的试用,我个人体验最好的两个模型是:
- Claude 3.7(现已升级到 4.0)
- Google Gemini 2.5 Pro
随后我也试了百度的 Comate AI 辅助编程工具,效果让我很惊讶:在不少场景下,用 Cursor + Claude 能做的事,用百度也能做到约 80%~90% 的效果,整体非常可用。
1.2 其他工具补充
- 字节 Trae(国际版):可挂 Claude 3.7,但整体效果不理想,与前两者差距明显;代码输出 Token 速度也偏慢
- 腾讯 CodeBuddy:整体效果不错
- Augument Code:团队做过试用,开发效率和效果都很不错


2. AI 软件工程实践:原型、需求结构化、规则预设
2.1 原型设计:从“能画”到“能直接产出代码”
我试用过国外的 Readdy 原型工具(见下图),效果很惊艳:不仅能生成原型,还能生成前端源代码文件。把这些文件导入 Cursor 后,可以直接要求它基于现有样式与结构扩展其它功能页面,产出速度很快。
此外还用过:
- 美团 Nocode 做原型:效果一般
- 团队也用 Figma 做设计补充

2.2 需求与工程统一:把“大文档”拆成可协作的最小单元
我们重点做了三件事:
-
结构化拆解需求文档
把原来的 Word 需求规格说明书等大文件,拆成一个个小的用户故事或功能点的独立 markdown 文件,并纳入软件项目工程统一管理。
-
完整做数据库设计
让“需求—数据—接口—页面”的链路更清晰,减少反复改动。
-
预设 Cursor Rules
把开发框架、开发语言、软件需求、数据库设计、前后端编码规范等提前预设好。这样 AI 在写代码、改代码、补测试时更稳定,也更贴合团队的工程约束。

3. AI 辅助写作:技术方案、结构化图、小说尝试
这部分我投入的时间非常多,主要做了几件事。
3.1 技术方案建议书:用 markdown 结构化重写“可复用资产”
我通过 AI 协助写技术方案建议书,重点是把原来的技术方案建议书用 markdown 文件进行结构化处理。
如果文档里有图片,我也会用 AI 画 SVG 图,把表达方式结构化(图形的源代码可版本化、可复用、可审阅)。

3.2 AI 写小说:幻觉与长上下文的限制很关键
我也尝试用 AI 写小说,把近 20 年的职场经验做虚构化,先搭建场景世界,再分章节规划后让 AI 协助写作。当时用的是 DeepSeek R1 模型,整体效果一般,主要问题是:
- 幻觉比较严重,文字容易“虚”
- 当时不支持长上下文,每章分开写,后面章节容易忘记前面的设定与铺垫
3.3 架构图/集成关系图:用 SVG 源码画图更利于沉淀
在软件领域,架构图、集成关系图等其实非常适合用 AI 来“结构化生成”。我的关键方法是让 AI 输出 SVG 源代码来画图,再将其纳入文档与工程统一管理。
4. AI 智能知识库:从内容清洗到问答检索
我做了一个相对“重”的尝试:搭建 AI 智能知识库。
4.1 内容准备:导出文章 → PDF → markdown + 图片拆分
我先把近 1000 篇文章导出,通过 AI 编程写爬虫代码,把文章转成一个个独立的 PDF 文件。
为了更好管理,又写了源代码程序:
- 把 PDF 转成 markdown 文件
- 同时把图片转成独立的 image 文件
这样做的好处是:文档可检索、可版本化、可被工程工具直接引用。

4.2 工具试用:不同知识库的特点差异
- CherryStudio:可挂不同语言模型;可调温度减少幻觉输出
- 腾讯 ima 知识库:当时效果很好,但最近一个月输出质量有所下降
- 知乎直答:导入知乎专栏文章用于问答,效果一般
5. AI 辅助做 PPT:从“大纲”到“逐页结构化”的转变
早期我的方法是:用 DeepSeek 生成 PPT 大纲的 markdown 文件 → 转到 kimi 工具生成 PPT。
但我认为这类 PPT 很难满足“演讲汇报”的真实需求。原因在于:只有大纲不够,汇报更需要逐页的表达设计。
更可行的思路是:
- 把 PPT 内容拆解到每一页
- 每页体现静态逻辑结构 + 动态流程结构
- 然后借助 Napkin 等工具做单页 PPT

5.1 更通用的 PPT 生成:从 Word + 一句话需求出发
有没有一种工具可以基于历史 Word 文档和一句话描述,生成更符合需求的 PPT?
我试了 GenSpark 和天工 AI 超级智能体来做 PPT。它们的思路通常是:
- 理解需求和内容
- 结构化处理
- 生成 HTML 源代码
- 再转成 PPT
这种方式更容易体现结构化和逻辑图,但在生成复杂 PPT 时仍会出现:
整体还需要进一步优化。

6. 用 Cursor 辅助写作:把“知识库”变成写作引擎
在完成 AI 方案文章与 AI 知识库的准备后,我做了一个关键动作:用 Cursor 辅助写作。
我把生成的 markdown 文件和图片导入 Cursor,形成独立项目(见下图截图)。这样 Cursor 可以基于历史文章内容进行归纳总结,再生成图文并茂的文章,效果非常明显。

7. AI 深度研究:国内外工具对比与用法
国内我尝试过:智谱沉思、密塔 AI 深度探索、天工 AI 超级智能体、Kimi 探索版、Coze 空间,以及即将推出的 Teamo 深度研究工具。整体看,国内工具与国外相比还有差距。

国外工具我主要试了:Google Gemini 里的 DeepResearch、mannus、Genspark、Flowith 等。我更多把它们用于 AI 辅助写作,例如把个人文章传到 Flowith 私有知识库,让它整理归纳,效果很好。
对于 Google Gemini DeepResearch,我现在形成了习惯:每周尽量选择与自我学习、工作实践相关的主题,让 AI 输出完整的学术研究分析报告。这块的输出能力很强。下图是文艺复兴时期艺术成就分析整理的截图示例。


8. AI 赋能产品:IPaaS 与业财一体化的落地方向
在 AI 赋能产品方面,主要聚焦两个方向:IPaaS 融合集成平台与业财一体化。
- IPaaS 平台:智能服务注册接入、接口编排、智能问答等;还希望把 API 网关作为 MCP server 发布,接入大模型
- 业财一体化:智能问答、智能单据结合 RPA 处理等

9. AI 智能体与 MCP:企业落地绕不开的一环
AI 智能体方面,早期用过扣子空间,现在团队用 dify 最多。我们主要尝试的场景包括:AI 智能知识库、智能客服、智能问答等。
MCP 方面,我做过很多测试与验证。企业大模型落地很重要的一点,就是融入 MCP 生态。常见验证路径包括:
- Claude Desktop 桌面版 + MCP
- Cursor 纳入配置 MCP 工具
- CherryStudio 配置 MCP 工具
整体效果不错,但 MCP 生态与大模型结合仍有不少工作要做。如果你也在做相关探索,可以在 人工智能 话题下进一步交流方案与案例。

10. AI 多模态:学习增强、数字人、图文转视频与播客
我把 AI 多模态实践分成两块:AI 辅助学习,以及数字人/视频/播客/配图生成等内容生产。
10.1 AI 辅助学习
- 密塔 AI「今天学点啥」:可以生成辅助培训课件、音频、PPT 等,效果惊艳
还支持把英文材料转成中文语音讲解。比如我把 Mary Meeker 的 2025 年人工智能趋势报告上传,生成了中文讲解视频并发布在 B 站和头条。
- 我也强调用 Google Gemini 2.5 DeepResearch 做深度研究(如 AI 智能体、AI 编程、制造业数据治理等),输出深度研究报告并进行分享。

10.2 数字人、文章转视频、播客与配图
- AI 数字人:试过 B 站早期工具、HeyGen、即梦等,整体效果一般
- 文章转视频:试过开源的 Money Printer Turbo 和剪映的新功能,效果不错
- 播客:扣子空间的双人播客功能很好;即梦的 AI 口播一般
- 图片生成/处理:常用即梦的 AI 做配图

11. 小结:从“试用工具”到“形成方法论”
这段时间的实践覆盖了 AI 编程、AI 辅助写作、AI 深度研究、AI 多模态、AI 智能体开发、AI 赋能产品等方向,也试用了不少工具。
真正值得反复打磨的,不只是“哪个工具更强”,而是以下这些可迁移的方法:
- 用 markdown 把知识与需求结构化,降低复用成本
- 用 Cursor Rules/规范前置,让 AI 更贴合工程约束
- 用知识库与项目化管理,让写作与研发进入同一套工作流
- 用深度研究工具做“可沉淀的报告”,而不是只做“随手问答”
如需更多同类讨论与资料整理,可在云栈社区浏览相关主题: https://yunpan.plus