01 下一代浏览器自动化工具:Skyvern
Skyvern并非一个简单的爬虫库,而是一个基于浏览器的自动化代理。其核心逻辑颇具创新性:它不依赖于预定义的XPath或CSS选择器。相反,它利用计算机视觉来识别网页上的按钮、输入框和链接,然后结合大语言模型的推理能力(如GPT-4V),判断哪个元素是完成任务的关键。
 工作原理
功能特性
- 视觉驱动自适应:通过视觉大模型分析网页截图,自动识别元素位置和功能,网站布局变化无需修改代码,彻底摆脱XPath依赖。
- 自然语言指令:无需编写复杂代码,用日常语言就能下达任务,AI会自动拆解步骤执行。
- 复杂工作流支持:可串联多个任务形成完整工作流,支持循环、条件判断、文件解析等功能,覆盖批量下载、多步骤表单填写等场景。
- 强大认证处理:支持双因素认证(2FA)、短信/邮箱验证,对接Bitwarden、1Password等密码管理器,自动处理登录和验证码问题。
- 支持多种 LLM 后端:可以对接多种语言模型(OpenAI、Gemini、Claude 等),灵活选择。
- 精准数据提取:可按自定义 schema 提取网页数据,支持JSON、CSV等格式输出,确保数据结构规范统一。
- 多环境与集成:提供云服务和本地部署两种方式,支持Docker快速启动,还能集成Zapier、N8N等工具,适配不同使用场景。
项目地址:https://github.com/Skyvern-AI/skyvern
02 轻量级文本转语音模型KittenTTS,无需GPU
KittenTTS是一个开源的、极具表现力的文本转语音模型系列,其核心特点在于“小身材,大能量”。整个模型仅有约1500万参数,体积被控制在惊人的25MB以内,比许多主流TTS模型小了十倍以上。

更关键的是,它经过极致优化,完全不需要GPU,仅凭CPU就能实现高质量的语音合成,从手机应用到嵌入式设备,从Web到桌面软件,几乎随处可用。
功能特性
- 模型超轻量:整个模型小于 25 MB,仅约 1500 万参数。
- 无需 GPU,纯 CPU 即可运行:几乎任何电脑、树莓派、嵌入式设备都能胜任。
- 多种预设语音:提供多种声音风格(男女声、不同语调等),适配不同场景需求。
- 快速推理、实时生成:经过优化,语音合成速度足够快,适合对话系统或实时 TTS 场景。
- 输出高质量音频:生成音频质量较好,可用于旁白、播报、读屏等应用。
- 开源 + 可本地部署:代码和模型开放,遵循 Apache-2.0 许可,无需将数据上传云端,对隐私安全友好。
项目地址:https://github.com/KittenML/KittenTTS
03 一键处理250+格式转换工具VERT,隐私友好免费
VERT是一个完全开源的多功能文件格式转换工具,其核心亮点在于利用 WebAssembly (Wasm) 技术,让你在浏览器里就能完成绝大多数文件的格式转换。
整个过程完全在本地设备上进行,文件无需上传至任何服务器,没有文件大小限制,也没有隐私泄露风险。它支持图片、音频、文档以及视频(视频转换需特定设置)在内的超过 250 种格式,界面现代化且友好。

功能特性
- 完全本地化处理:基于 WebAssembly,图片、音频、文档的转换 100% 在浏览器中完成,确保数据隐私安全。
- 无文件大小限制:告别在线工具常见的文件体积限制,再大的文件也能轻松转换。
- 超广格式支持:覆盖 PNG, JPG, WebP, MP3, WAV, FLAC, DOCX, PDF, HTML, EPUB 等 250+ 常见格式。

- 开源且可自托管:代码完全开放(AGPL-3.0 协议),可以自行部署到内网或私有服务器,实现完全掌控。
- 用户友好体验:提供直观的拖放操作界面和丰富的转换设置选项,使用简单便捷。
- 灵活的部署方式:支持直接使用官方实例、Docker 快速部署或传统 Web 服务器部署。
项目地址:https://github.com/VERT-sh/vert
04 国产全平台开源远程桌面CrossDesk
CrossDesk是一款轻量级跨平台远程桌面开源项目,基于 MiniRTC 实时音视频传输库开发,具备网络透传、软硬编解码、传输加密等核心能力。它支持 Windows、macOS、Linux、Android、iOS 全系统,还提供 Web 客户端访问,致力于实现“远程如本地”的流畅体验。

功能特性
- 超低延迟传输:采用自研量子传输协议(QTP),动态调整码率,实测延迟低至5-15ms,支持4K/60帧高清传输,操作流畅无卡顿。
- 全平台兼容:覆盖Windows、macOS、Linux、Android、iOS及Web端,设备间可互相控制,甚至支持树莓派等轻量设备。
- 硬件加速编码:支持NVIDIA Video Codec、Video Toolbox硬件加速,兼容H.264/AV1编码格式,降低CPU占用率。
- 强大网络穿透能力:无需配置路由器和防火墙,公司内网、家庭NAT、手机热点等场景均可直接连接,实现“傻瓜式”远程。
- 安全可靠传输:采用SRTP加密和国密SM4算法,支持私有化部署,企业级操作审计和权限管控,保障数据安全。
- 实用协作功能:支持多人实时协作控制、隐私屏模式、文件拖拽互传、协作白板,满足远程调试、培训等多场景需求。
项目地址:https://github.com/kunkundi/crossdesk
05 macOS轻量级录屏工具QuickRecorder
QuickRecorder是一款专为 macOS 设计的轻量级屏幕录制工具,基于苹果官方的 ScreenCapture Kit 框架开发,提供了流畅的录屏体验。该项目支持多种录制模式,包括全屏、窗口、应用程序以及移动设备录制,能够满足不同场景下的录制需求。
 
相比其他录屏软件,QuickRecorder 的优势在于其出色的性能优化,用户可以在不影响系统流畅度的情况下录制高清画面。同时,软件体积小巧,安装包不到 5MB,却包含了众多专业级功能。
功能特性
- 高效录制模式:支持屏幕、窗口、应用程序以及移动设备录制,灵活适应各种录制需求。

- 音频录制功能:支持免驱音频回环录制,无需额外配置即可录制系统声音,同时可录制麦克风音频。
- 鼠标高亮与屏幕放大:在演示和教程录制时,能够高亮显示鼠标位置并支持屏幕放大,让关键操作更清晰。
- Presenter Overlay:完全支持 macOS 14 的“演示者叠加”功能,可实时将摄像头画面叠加到录制内容中。

- HEVC Alpha 视频:支持录制包含透明通道的 HEVC 视频格式,适用于专业后期制作。
- 跨设备录制:可以同时录制 Mac 屏幕 + iPhone/iPad 屏幕(适合需要手机+电脑混合内容的创作者)。

- 快捷键支持:集成 Swift 开发的快捷键库,提供流畅的快捷操作体验。

项目地址:https://github.com/lihaoyun6/QuickRecorder
|