你有没有想过,为什么 Google 的 NotebookLM 这么好用,却不能连接你的 Slack、Notion 和 GitHub?为什么 Perplexity 回答问题很快,但你的企业数据它永远看不到?
今天要介绍的 SurfSense,就是来解决这个痛点的——一个完全开源、可自托管的 AI 知识工作空间,让你在保护隐私的前提下,把所有数据源连成一张智能网络。
源码下载:
SurfSense-main.zip
(2.09 MB, 下载次数: 0)
一、它到底能做什么?
1. 统一检索 15+ 数据源
想象这个场景:你在写技术方案,需要引用上个月 Slack 里的讨论、Notion 的会议纪要、GitHub 的 Issue,还有本地保存的 PDF 论文。
传统做法:打开 4 个网页,分别搜索,复制粘贴,手动整理。
SurfSense 的做法:输入问题,AI 自动检索所有数据源,给出带引用的答案,点击就能跳转到原文。
支持的数据源包括:
- 文档:50+ 格式(PDF、Word、Markdown...)
- 协作工具:Slack、Notion、Confluence
- 项目管理:Jira、Linear、ClickUp
- 代码仓库:GitHub、GitLab
- 搜索引擎:Tavily、LinkUp
2. 18 秒生成 3 分钟播客
上传几篇论文或聊天记录,点击"生成播客",系统会:
- 提炼核心观点
- 改写成对话式脚本
- 用 AI 语音合成(支持多说话人)
- 输出完整音频文件
适合通勤路上听论文、开会前快速了解背景。
3. 隐私优先的本地部署
所有数据存储在你自己的服务器,支持:
- Ollama 本地 LLM(Llama、Qwen 等)
- Docling 本地文档解析(无需上传到云端)
- PostgreSQL + pgvector(向量数据库)
不想折腾也可以用 OpenAI、Claude 等云端模型,完全由你决定。
二、技术上有什么亮点?
双层 RAG 架构
传统 RAG(检索增强生成)直接在所有文档块里搜索,数据量大了就很慢。
SurfSense 用了两层检索:
- 第一层:先在文档级别粗筛,找出最相关的 20 篇文档
- 第二层:在这 20 篇里精细检索具体段落,用 Reranker 重排序
实测效果:10 万文档的检索延迟只有 120 毫秒。
混合检索 + RRF 融合
同时用语义检索(理解意思)和全文检索(匹配关键词),然后用 RRF 算法融合结果。
举个例子:
- 问题:"如何优化 PostgreSQL 性能?"
- 语义检索:找到讨论数据库调优的文章
- 全文检索:精确匹配"PostgreSQL"关键词
- RRF 融合:两种结果互补,召回率提升 30%
LangGraph Agent 编排
用状态机管理 AI 的多步骤推理:
- 搜索外部信息
- 检索本地知识库
- 判断信息是否充分
- 不够就重新搜索,够了就生成答案
可以在 LangSmith 里看到 Agent 的完整思考路径,方便调试。
三、怎么快速上手?
Docker 一键启动
git clone https://github.com/MODSetter/SurfSense.git
cd SurfSense
cp .env.example .env
# 编辑 .env 配置 API Key
docker-compose up -d
访问 http://localhost:3000
就能用了。
最小配置
如果只是个人使用,可以:
- LLM:用免费的 Groq API(每天 14400 次调用)
- 嵌入模型:用本地的
bge-small-zh
(中文效果好)
- 数据库:Docker 自带的 PostgreSQL
企业部署建议
- 用 Ollama 跑 Qwen2.5-32B(24GB 显存)
- 启用 Cohere Rerank(提升检索精度)
- 配置 Redis 缓存(加速重复查询)
四、适合谁用?
个人知识管理
- 研究生:管理几百篇论文,快速找到相关引用
- 程序员:检索 GitHub Issue、技术博客、API 文档
- 自媒体:整理采访记录、灵感笔记、素材库
团队协作
- 产品团队:连接 Jira、Confluence、Slack,快速查找需求背景
- 技术团队:连接 GitHub、Linear、内部文档,辅助 Code Review
- 客服团队:连接工单系统、知识库,快速响应客户问题
企业私有化
- 金融、医疗等对数据敏感的行业
- 需要审计 AI 回答来源的场景
- 希望用自己微调的模型
五、对比其他方案
功能 |
NotebookLM |
Perplexity |
SurfSense |
开源 |
❌ |
❌ |
✅ |
自托管 |
❌ |
❌ |
✅ |
外部集成 |
仅 Google Drive |
无 |
15+ 数据源 |
模型选择 |
固定 Gemini |
固定 |
100+ LLM |
播客生成 |
✅ |
❌ |
✅ |
成本 |
免费/付费 |
$20/月 |
开源免费 |
六、未来会加什么功能?
根据 Roadmap,近期会支持:
- 多模态检索:上传视频,AI 自动提取字幕和关键帧
- 知识图谱:自动提取实体关系,可视化知识网络
- 移动端 App:iOS/Android 原生应用
- Code Interpreter:支持数据分析和可视化
社区也在讨论联邦学习、Web3 集成等长期方向。
七、《异或Lambda》的观点
SurfSense 的价值不在于技术多炫酷,而在于把企业级 AI 能力开源化、民主化。
两年前,只有大厂才能构建这样的系统。现在,任何开发者都能用开源组件搭建自己的"私有 Perplexity"。
这正是我们一直倡导的:解放生产力、创造未来、改造世界。当 AI 工具不再被云服务商垄断,每个人都能根据自己的需求定制智能助理,这才是真正的技术赋能。
今天的开源项目,明天的基础设施。
开始使用
如果你:
- 需要管理大量文档和多个数据源
- 重视数据隐私和自主可控
- 想学习 RAG 和 Agent 的工程实践
不妨试试 SurfSense,它可能会改变你的知识管理方式。
项目地址:https://github.com/MODSetter/SurfSense
技术文档:https://www.surfsense.com/docs
关注《异或Lambda》,一起见证 AI 改造世界进行时。
标签:#SurfSense #GitHub #开源AI #RAG #知识管理 #本地部署 #隐私优先 #LangChain