
经过一段时间的持续迭代,我对个人基于 Obsidian 的知识管理工作流进行了多项优化,并尝试将当下流行的 AI输入法 融入关键流程节点,致力于实现“能动口就不动手”的效率目标。以下将分享如何结合 Gemini CLI、智谱AI输入法(小凹)与 Obsidian,构建一套顺畅的语音驱动工作流。
通过一张信息图概览核心工作流:

这套流程涵盖了从写作、文件管理到开发、回复等多个场景,下面通过具体实例进行说明。
工具选型:为何选择智谱AI输入法?
Obsidian 与 Gemini CLI 已是内容创作与知识管理的常见组合。在 AI 输入法的选择上,市面产品大致分为两类:一类侧重低延迟与本地隐私的实时翻译,功能较为单一;另一类则具备更丰富的智能体(Agent)操作能力,能应对复杂场景。
经过对比测试,最终选择了智谱AI输入法“小凹”。其在复杂指令识别、多场景适应性上表现突出,并支持根据不同场景定制输出风格,这完美契合了工作流迭代的需求。其基于 GLM-ASR 系列开源语音识别模型打造,识别准确率高。

通过内置的“词典”和“人设”功能,可以为不同工作流节点预设专属风格,实现精准的指令理解与响应。

实践场景解析
1. 语音启动 Gemini CLI
传统方式需要在 Obsidian 终端手动输入 gemini 命令。现在,只需按住功能键说“帮我启动 gemini”,AI输入法便会自动输出并执行该命令,过程流畅无感。
2. 终端信息监控
在 Gemini CLI 中,常需查看仓库磁盘占用或特定进程状态。现在只需语音输入:“查看当前文件夹磁盘占用,并显示所有Python相关的进程”。AI输入法会快速查找并生成相应的 du、ps 等命令,由 CLI 自动执行并返回结果,极大提升了运维查询效率。
3. 智能文件管理
面对 Obsidian 仓库中繁杂的各类文件,管理变得轻松。例如,想知道当前文件夹图片数量并统一转换格式,只需说:“看下当前文件夹有多少张图片,并做图片格式转换”。
对于公众号运营等需要将视频转为 GIF 且控制文件大小的场景,可直接给出复杂需求:“将demo.mp4视频转成GIF格式的,只要前3秒,且大小控制在10M以内”。AI输入法会生成精确的 FFmpeg 命令参数,交由 CLI 执行,一次性完成格式转换与压缩。
4. Obsidian 内容创作辅助
在 Obsidian 内进行写作时,可从标题构思到段落润色获得全程辅助。通过语音指令,可以快速生成文章标题、对特定段落进行风格化改写、优化措辞,甚至将文本内容转换为表格或清单等格式。这为内容创作,尤其是新媒体文案的本地化快速优化提供了强大支持。
5. 插件开发与编程辅助
在 Obsidian 插件开发场景中,结合 Gemini CLI 已能提供代码建议与解释。引入 AI 输入法后,进一步解放了双手。通过语音即可完成诸如“运行当前测试”、“安装某个依赖包”等常见命令,让开发者更专注于逻辑思考。
6. 高效社群互动回复
回复评论与留言是创作者的重要日常。通过为 AI 输入法设定“友好、专业的创作者”人设,可以快速生成对常见问题或感谢留言的初步回复草稿,经过简单调整即可发布,显著提升了互动效率与响应及时性。
7. 随身的懒人计算器
遇到需要简单计算的场景,无需切换应用。直接说出算式如“12345乘以6789等于多少”,即可瞬间获得结果,如同一个随叫随到的智能计算器。
总结
整合 Gemini CLI、AI输入法与 Obsidian 的核心价值在于,通过自然的语音交互,消除了工具使用中的摩擦感,将想法到执行路径缩至最短。无论是文件管理、内容创作还是开发调试,语音指令都能精准触发复杂的自动化操作链。
技术的最终目的是服务于人。这套工作流的意义在于,它让我们能够更便捷地捕捉并实现那些“一闪而过的灵感火花”,将认知负荷更多地分配给创造性思考,而非机械操作。在 AI 能力日益普及的今天,以更自然的方式驾驭工具,或许是提升个人效率的下一个关键点。

|