云栈社区»论坛 › 技术文档「 Note & Doc 」 › 手把手实现Karpathy同款AI知识库：Claude+GPT-4+文本文件完全指 ...

发回帖发新帖

4001 积分	0 好友	521 主题

发消息

手把手实现Karpathy同款AI知识库：Claude+GPT-4+文本文件完全指南

发表于 2026-4-6 07:08:56 | 查看: 118| 回复: 0

你是否也感觉自己的笔记、文章和想法散落在各处，难以形成体系？近期，前特斯拉AI总监、OpenAI联合创始人 Andrej Karpathy 的一条推文引爆了讨论。他分享了自己正在使用大语言模型（LLM）构建个人知识库，让大部分计算资源（Token）从编写代码转向处理和深化内容。

Andrej Karpathy 关于 LLM 知识库的推文截图

他随后公开了核心思路：摒弃复杂的工具，将所有原始材料扔进一个文件夹，然后让 AI 自动将其整理成结构化的个人维基——生成摘要、关联主题、维护内容。这种极简主义方法吸引了大量开发者和研究人员的关注。本文就将带你一步步复现这个流程，无需复杂软件，仅用文件夹和文本文件即可构建属于你的“第二大脑”。想与更多开发者交流此类 AI 实践，欢迎来云栈社区探讨。

第一步：搭建极简项目结构

整个过程从创建文件夹开始。在你的电脑上任意位置，新建一个项目主文件夹，并在其中创建三个子文件夹：

my-knowledge-base/
  raw/      # 存放所有原始材料（文章、笔记、截图等）
  wiki/     # AI 整理后生成的维基知识库
  outputs/  # AI 生成的报告、答案等输出文件

这就是 Karpathy 使用的全部结构：raw/ 是收纳箱，wiki/ 是经过 AI 梳理的知识殿堂，outputs/ 则用于存放针对具体问题的答案。

第二步：无脑收集，拒绝整理

很多人会在这里卡住：看着空荡荡的 raw/ 文件夹，不知道放什么进去。

答案是：什么都放。将网页文章复制粘贴成 .md 或 .txt 文件，直接保存截图，从任何笔记应用里导出内容，会议记录、论文、项目文档，甚至浏览器里囤积的书签，统统丢进去。

关键点：不要手动整理、重命名或清理。这些工作全部留给 AI。在构建我的某个主题知识库时，我扔进去了17个原始文件——剪藏的文章、竞品分析、数据报告——没有一个是事先整理过的。

但 Karpathy 没提到一个能极大加速收集过程的秘诀：自动化。

第三步：使用 Agent-Browser 自动抓取网页

手动复制粘贴效率太低，尤其对于动态网页。Vercel Labs 近期开源的 agent-browser 完美解决了这个问题。这是一个免费的命令行工具，允许 AI Agent 操控真实的 Chrome 浏览器，在 GitHub 上已获得超过 26K 星标。

通过简单的命令即可安装。安装完成后，AI 就能自动抓取任何网页的文本，并直接保存到你的 raw/ 文件夹。

基本操作流程如下：

agent-browser open https://some-article-you-want.com
agent-browser get text “article”

就这样，AI 为你打开页面并提取核心文本。它能处理传统复制粘贴无能为力的页面：依赖 JavaScript 动态加载的内容、需要登录的网站、带有复杂交互图表的研究论文等。根据测试，其效率比类似工具高得多，让你在同等资源下可以收集数倍的材料。看到有价值的文章，只需对 AI 说一句：“把这个 URL 的内容抓下来存到 raw/”，你的知识库素材就在自动增长了。

第四步：为 AI 编写“说明书”（Schema）

这是至关重要却常被跳过的一步。你需要在项目根目录创建一个说明文件，例如 CLAUDE.md 或 AGENTS.md。这个文件定义了知识库的规则，告诉 AI 应该如何组织和维护内容。

下面是一个可直接复用的模板：

# 知识库 Schema

## 这是什么
一个关于 [你的主题] 的个人知识库。

## 如何组织
- raw/ 包含未处理的源材料。永远不要修改这些文件。
- wiki/ 包含整理后的维基。完全由 AI 维护。
- outputs/ 包含生成的报告、答案和分析。

## 维基规则
- 每个主题在 wiki/ 中有自己的 .md 文件
- 每个维基文件以一段摘要开头
- 使用 [[topic-name]] 格式链接相关主题
- 在 wiki/ 中维护一个 INDEX.md，列出每个主题及一行描述
- 当添加新的原始源时，更新相关的维基文章

## 我的兴趣点
[列出 3-5 个你希望这个知识库关注的方向]

Karpathy 本人强调，他的 AGENTS.md 极其简单扁平：没有数据库，没有插件，仅仅是一个文本文件。这份文件就是你整个知识库系统的“宪法”。清晰的规则是高效利用 LLM 构建知识体系的基础，想深入了解更多最佳实践，可以参考社区的技术文档板块。

第五步：一键生成结构化维基

现在，激动人心的部分来了。打开 Claude Code、Cursor 或任何支持读取项目文件的 AI 编码工具，加载你的项目文件夹，然后输入如下指令：

“读取 raw/ 中的所有内容。然后按照 CLAUDE.md 中的规则在 wiki/ 中编译一个维基。先创建 INDEX.md，然后为每个主要主题创建一个 .md 文件。链接相关主题。总结每个源。”

接着，你可以暂时离开，让 AI 工作。完成后，你将得到一个井井有条的 wiki/ 文件夹：内容按主题归类，建立了你未曾注意到的关联，补充了摘要，并附有全局索引。

核心原则：不要手动编辑 wiki/ 里的文件。你的工作是阅读、提问和添加原始材料，而维护和更新维基是 AI 的职责。

第六步：主动提问，激活知识库

当你的维基积累了10篇以上的文章后，就可以开始“使用”它了。向 AI 提出深入的问题，例如：

“基于 wiki/ 中的所有内容，我对【主题】理解中最大的三个空白是什么？”
“比较源 A 和源 B 对【概念】的说法。它们在哪里有分歧？”
“仅使用这个知识库中的内容，给我写一份500字的【主题】简报。”

AI 会基于你专属的知识库给出答案。将这些有价值的输出保存到 outputs/ 文件夹，或者让 AI 根据新见解去更新相关的维基文章。每一次问答都在让你的知识库变得更智能。

第七步：定期审查，防止“错误复利”

在 Karpathy 的推文下，有评论一针见血地指出：“当输出被归档回去时，错误也会复利。”如果 AI 产生了一个微小错误并被保存，后续的生成可能会在此基础上越错越远。

解决方案是定期运行“健康检查”。给你的 AI 发出如下指令：

“审查整个 wiki/ 目录。标记文章之间的任何矛盾。找出提到但从未解释的主题。列出任何没有 raw/ 中源支持的声明。建议3篇能填补空白的新文章。”

工具选择：大道至简

在相关讨论中，许多人热衷于推荐各种复杂的笔记软件和插件。但当被问及具体设置时，Karpathy 的回复是：“我试图保持超级简单和扁平。它只是一个嵌套的 .md 文件目录。”

一个文本文件文件夹，加上一份 Schema 文件，就构成了整个知识库系统。你可以使用 Claude Code 从终端运行，也可以用 VS Code、Obsidian 甚至记事本打开。AI 并不关心前端应用，它只认文件夹结构和规则。

过度配置工具（比如装了47个插件的 Obsidian）很容易落入“Notion 陷阱”——你花在折腾工具上的时间远多于使用知识本身的时间。对于90%的使用场景，扁平文件加上清晰的规则，比任何花哨的工具栈都更有效。

总结

完整的 Karpathy 同款 AI 知识库系统包括：三个文件夹、一份 Schema 文件、一个自动化网页抓取工具，以及一个负责维护的 AI。

Karpathy 的原推文获得了数万收藏。但收藏与真正用起来的差距，往往只是一个周末的动手实践。选择一个你感兴趣的领域，建立好文件夹，把现有的资料扔进去，剩下的就交给 AI 吧。

参考来源:

上一篇：工信部提醒苹果用户：iOS 13-17.2.1存高危漏洞，需警惕钓鱼攻击
下一篇：A16Z深度分析：为何个人AI效率提升，却带不来企业级生产力革命？

AI知识库, LLM, RAG, Claude, GPT-4