云栈社区»论坛 › 开发者广场「Dev Plaza」 › 11个值得关注的GitHub热门开源项目，涵盖AI科研、语音与智能体 ...

发回帖发新帖

5668 积分	0 好友	745 主题

发消息

11个值得关注的GitHub热门开源项目，涵盖AI科研、语音与智能体

发表于 2026-4-5 05:02:55 | 查看: 180| 回复: 0

01 AI 自动做科研写论文

Sakana AI 联合几所大学推出了 AI-Scientist-v2。这是一个端到端的研究系统，能够自主提出研究想法、搜索文献、设计实验、编写代码运行实验，并最终产出完整的学术论文，全程无需人工介入。

AI-Scientist-v2 GitHub仓库页面截图

最令人印象深刻的是，该系统生成的论文通过了 ICLR 2025 Workshop 的同行评审，评分达到了6.33，超过了55%的人类投稿。这项成果也已在2026年3月正式发表于《自然》杂志上。

AI-Scientist-v2项目介绍图

相比上一代，v2版本最大的区别是采用了渐进式 Agent 树搜索。它不再局限于固定的实验模板，可以并行探索多条研究路径，以寻找最优解决方案。系统还内置了一个模拟领域主席的自动评审器，其准确率约为69%，与人类评审者水平相当。

运行一次完整的实验成本大约在20-25美元，能够在几小时内完成从想法到论文的全过程。当然，官方建议在Docker沙盒环境中运行，毕竟所有代码都是由AI自动生成的。这种从研究构思到论文产出的全自动化能力，在学术圈内引发了广泛的讨论。

开源地址：https://github.com/SakanaAI/AI-Scientist-v2

02 微软开源的语音AI模型

VibeVoice 是微软开源的语音AI模型家族，包含语音合成（TTS） 和语音识别（ASR） 两大核心方向。该项目曾一度因发现有人利用其进行深度伪造而被删除，当时已收获约8K的Star。在重新上架后，其Star数迅速飙升至3.5万以上。

VibeVoice项目宣传图

该模型最亮眼的是其超长音频处理能力。TTS模型单次能够生成长达90分钟的多说话人对话音频；ASR模型也能一次性处理60分钟的音频而无需切片。其ASR输出非常智能，可以一次性推理出说话人身份、说话时间以及内容。

此外，还有一个轻量级的实时 TTS 模型，仅有0.5B参数，首音频延迟约为300毫秒，消费级GPU即可运行。如果你有长音频转录或实时语音合成的需求，在当前的开源实战领域中，很难找到比它更强的方案。

开源地址：https://github.com/microsoft/VibeVoice

03 具备闭环学习能力的智能体框架

Hermes Agent 是由 Nous Research 开源的一个具备自学习能力的人工智能智能体框架。

Hermes Agent项目介绍图

它与一般的智能体不同，其核心在于一个闭环学习系统。在完成任务后，它能自动将经验提炼成可复用的技能文件，并在实际使用中持续优化这些技能，从而实现“越用越懂你”的效果。

它支持超过200个模型，只需一行命令即可切换不同的模型提供商。其接入渠道也非常广泛，一个Gateway进程就能对接飞书、企业微信等十几个平台。同时，它还支持从OpenClaw等项目迁移记忆、技能等数据。

Hermes Agent迁移指南截图

开源地址：https://github.com/NousResearch/hermes-agent

04 开源企业级AI搜索平台

Onyx 旨在解决企业内部信息过于分散的问题。公司的文档常常散落在GitHub、Google Drive、Confluence、Slack等多个平台，查找信息如同大海捞针。Onyx 通过将RAG技术与这些数据源原生集成，让员工能够直接用自然语言提问并获得精准答案。

Onyx项目介绍页面

该项目最初名为Danswer，是YC W24批次的创业项目。它在2025年获得了由Khosla Ventures和First Round Capital联合领投的1000万美元种子轮融资，Netflix、Ramp等公司均为其用户。除了企业搜索，它还支持深度研究功能，在其自建的排行榜上名列第一。

平台还集成了代码沙箱执行、语音模式、图像生成等能力，基本可以看作一个可完全自托管的私有化ChatGPT。部署仅需一条命令，目前已在GitHub上获得2.3万Star。

开源地址：https://github.com/onyx-dot-app/onyx

05 Claude Code 全功能学习指南

claude-howto 是一份非常全面的 Claude Code 学习指南，内容覆盖从基础概念到高级智能体编排的所有方面。官方文档通常只介绍功能是什么，但并未深入讲解如何组合使用。这个项目正是为了弥补这一缺口。

claude-howto GitHub仓库页面

它包含了10个教程模块，总学习时长约为11-13小时，采用从初级到高级的渐进式设计，适合用一个周末系统学习。

Claude How-To 学习路径图

项目中最好用的部分是大量可以直接复制粘贴使用的生产级模板和可视化教程，使用起来几乎零门槛。你不需要安装任何额外依赖，只需克隆项目并将模板复制到自己的目录即可开始使用。项目还支持生成EPUB电子书供离线阅读。目前Star数已达1.7万，并几乎随着Claude Code的版本同步更新。

claude-howto功能总结表格

开源地址：https://github.com/luongnv89/claude-howto

06 Claude Code 多智能体编排系统

oh-my-claudecode 是 Claude Code 的一个多智能体编排系统，提供了19个专业化的AI智能体，包括架构师、规划师、执行者等。它能自动将复杂任务拆解，并分派给最合适的智能体进行处理。

oh-my-claudecode项目主页

其中，Team Mode是最推荐的模式。在该模式下，你只需用一句话描述需求，即可启动完整的开发流水线，覆盖从需求分析、代码生成到测试验证的全过程。

oh-my-claudecode功能特点列表

系统还具备智能模型路由功能，能自动为简单任务选择Haiku模型以节省成本，为复杂推理选择Opus模型，据称可节省30-50%的Token消耗。其技能学习系统也很有意思，能够从开发过程中自动提取调试知识和模式，在下次遇到类似问题时自动注入相关上下文。

oh-my-claudecode执行模式与编排功能详解

该项目目前拥有1.1万Star，可通过Claude Code的插件命令，在三个步骤内完成安装。

开源地址：https://github.com/Yeachan-Heo/oh-my-claudecode

07 OpenAI Codex CLI 的智能体编排层

oh-my-codex 与上一个项目 oh-my-claudecode 出自同一作者。它将类似的多智能体编排理念移植到了 OpenAI Codex CLI 之上。该项目在两个月内从零增长到1.4万Star，在开源项目中这样的增长速度相当罕见。

oh-my-codex项目介绍图

它包含了30个专业智能体角色和40多个技能。支持在tmux中启动最多20个Worker并行工作，且每个Worker都在独立的git worktree中运行，互不干扰。此外，它还支持混合使用Codex和Claude的Worker，实现两家模型的同时协作。

安装非常简单，执行 npm install -g oh-my-codex 后，再运行 omx setup 即可。

开源地址：https://github.com/Yeachan-Heo/oh-my-codex

08 全网30天内趋势研究技能

last30days-skill 是一个增长速度极快的AI代理技能，它能让你一句话搜遍全网最近30天的讨论。

last30days-skill GitHub仓库页面

输入任意主题后，它会自动在Reddit、X、YouTube、TikTok、Instagram等10个信息源中，搜索过去30天的相关讨论，并综合整理出一份带有真实引用的研究报告。

last30days-skill适用场景说明

它还有一个实用的比较模式。例如，输入“Claude Code vs Codex”，它会并行运行3次研究，最终输出一份优劣势对比表。这个工具能帮助你快速了解社区当前真实讨论的热点和实际使用的工具。据测试，平均约70秒即可完成一次研究。该项目已获得1.8万Star，增长势头非常迅猛。

开源地址：https://github.com/mvanhorn/last30days-skill

09 开源屏幕录制与演示工具

Screen Studio 是一款流行的商业屏幕录制美化工具，月费为29美元。而 OpenScreen 则是其免费开源替代品。

OpenScreen项目介绍

它覆盖了屏幕录制、自动缩放平移动画、动态模糊、多种背景选项、标注添加等核心功能。录制完成后，你可以手动添加缩放效果，自定义深度级别和时长，并叠加动态模糊，一键输出接近专业演示视频的效果。

OpenScreen录制界面工具栏

OpenScreen视频编辑界面

软件支持将壁纸、纯色、渐变色或自定义图片作为背景，还能添加文字和箭头等标注。它兼容macOS、Windows和Linux三大平台。目前Star数已过万，但仍处于Beta阶段，在Windows上的导出速度还有优化空间。

开源地址：https://github.com/siddharthvaddem/openscreen

10 自托管AI会计应用

TaxHacker 是一款为自由职业者、独立开发者和小型企业设计的自托管会计应用。它的核心功能是利用AI自动处理财务凭证：你只需拍照或上传PDF格式的收据发票，AI就能自动提取商品名称、金额、日期、商家、税额等全部信息，将纸质凭证转化为结构化数据。

TaxHacker项目介绍图

它支持170多种法定货币和14种加密货币，并能按历史汇率自动换算，对有跨境业务的用户非常实用。此外，其提示词（Prompt）完全可定制，你可以自定义提取规则、分类规则，甚至添加自定义字段，类似于在Excel中增加列。

它还支持通过Ollama使用本地大语言模型完全离线运行，确保数据不出本地设备。

开源地址：https://github.com/vas3k/TaxHacker

11 Google的时序预测基础模型

TimesFM 是 Google Research 推出的时序预测基础模型，在1000亿个真实世界时间点上进行了预训练。

TimesFM技术介绍截图

最新的2.5版本仅有2亿参数，但其零样本预测准确率却高于许多更大的模型，在GIFT-Eval基准测试中所有指标均排名第一。其上下文窗口最长支持16384个时间步，是上一代的8倍，并且无需指定数据频率，模型可以自动推断。

从HuggingFace加载权重后即可使用，2亿参数的规模对硬件非常友好，消费级GPU即可运行。TimesFM 现已集成到 Google BigQuery 中，企业用户可以直接在SQL语句里调用。

开源地址：https://github.com/google-research/timesfm

结语

以上就是本周在GitHub上关注度较高的11个开源项目。它们覆盖了从自动化科研、语音AI到智能体编排、开发工具等多个前沿技术领域，为开发者和技术团队提供了丰富的工具和思路。在 云栈社区 等开发者聚集地，类似的开源发现与深度探讨每天都在进行，持续跟踪这些高质量项目，是保持技术敏感度的有效方式之一。如果你对某个项目的技术文档或具体实现有疑问，不妨前往其仓库页面或相关的技术论坛深入研究。

上一篇：深入剖析Linux进程创建：fork/exec系统调用与COW写时复制底层原理
下一篇：Claude Code 从零到上手：CC Switch 管理配置与 CLAUDE.md 项目规范实战

GitHub, 开源项目, 人工智能, 语音合成, 多智能体