找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

211

积分

0

好友

31

主题
发表于 昨天 01:46 | 查看: 16| 回复: 0

01 下一代浏览器自动化工具:Skyvern

Skyvern并非一个简单的爬虫库,而是一个基于浏览器的自动化代理。其核心逻辑颇具创新性:它不依赖于预定义的XPath或CSS选择器。相反,它利用计算机视觉来识别网页上的按钮、输入框和链接,然后结合大语言模型的推理能力(如GPT-4V),判断哪个元素是完成任务的关键。

图片工作原理工作原理

功能特性

  • 视觉驱动自适应:通过视觉大模型分析网页截图,自动识别元素位置和功能,网站布局变化无需修改代码,彻底摆脱XPath依赖。
  • 自然语言指令:无需编写复杂代码,用日常语言就能下达任务,AI会自动拆解步骤执行。
  • 复杂工作流支持:可串联多个任务形成完整工作流,支持循环、条件判断、文件解析等功能,覆盖批量下载、多步骤表单填写等场景。
  • 强大认证处理:支持双因素认证(2FA)、短信/邮箱验证,对接Bitwarden、1Password等密码管理器,自动处理登录和验证码问题。
  • 支持多种 LLM 后端:可以对接多种语言模型(OpenAI、Gemini、Claude 等),灵活选择。
  • 精准数据提取:可按自定义 schema 提取网页数据,支持JSON、CSV等格式输出,确保数据结构规范统一。
  • 多环境与集成:提供云服务和本地部署两种方式,支持Docker快速启动,还能集成Zapier、N8N等工具,适配不同使用场景。

项目地址:https://github.com/Skyvern-AI/skyvern

02 轻量级文本转语音模型KittenTTS,无需GPU

KittenTTS是一个开源的、极具表现力的文本转语音模型系列,其核心特点在于“小身材,大能量”。整个模型仅有约1500万参数,体积被控制在惊人的25MB以内,比许多主流TTS模型小了十倍以上。

图片

更关键的是,它经过极致优化,完全不需要GPU,仅凭CPU就能实现高质量的语音合成,从手机应用到嵌入式设备,从Web到桌面软件,几乎随处可用。

功能特性

  • 模型超轻量:整个模型小于 25 MB,仅约 1500 万参数。
  • 无需 GPU,纯 CPU 即可运行:几乎任何电脑、树莓派、嵌入式设备都能胜任。
  • 多种预设语音:提供多种声音风格(男女声、不同语调等),适配不同场景需求。
  • 快速推理、实时生成:经过优化,语音合成速度足够快,适合对话系统或实时 TTS 场景。
  • 输出高质量音频:生成音频质量较好,可用于旁白、播报、读屏等应用。
  • 开源 + 可本地部署:代码和模型开放,遵循 Apache-2.0 许可,无需将数据上传云端,对隐私安全友好。

项目地址:https://github.com/KittenML/KittenTTS

03 一键处理250+格式转换工具VERT,隐私友好免费

VERT是一个完全开源的多功能文件格式转换工具,其核心亮点在于利用 WebAssembly (Wasm) 技术,让你在浏览器里就能完成绝大多数文件的格式转换。

整个过程完全在本地设备上进行,文件无需上传至任何服务器,没有文件大小限制,也没有隐私泄露风险。它支持图片、音频、文档以及视频(视频转换需特定设置)在内的超过 250 种格式,界面现代化且友好。

图片

功能特性

  • 完全本地化处理:基于 WebAssembly,图片、音频、文档的转换 100% 在浏览器中完成,确保数据隐私安全。
  • 无文件大小限制:告别在线工具常见的文件体积限制,再大的文件也能轻松转换。
  • 超广格式支持:覆盖 PNG, JPG, WebP, MP3, WAV, FLAC, DOCX, PDF, HTML, EPUB 等 250+ 常见格式。 图片
  • 开源且可自托管:代码完全开放(AGPL-3.0 协议),可以自行部署到内网或私有服务器,实现完全掌控。
  • 用户友好体验:提供直观的拖放操作界面和丰富的转换设置选项,使用简单便捷。
  • 灵活的部署方式:支持直接使用官方实例、Docker 快速部署或传统 Web 服务器部署。

项目地址:https://github.com/VERT-sh/vert

04 国产全平台开源远程桌面CrossDesk

CrossDesk是一款轻量级跨平台远程桌面开源项目,基于 MiniRTC 实时音视频传输库开发,具备网络透传、软硬编解码、传输加密等核心能力。它支持 Windows、macOS、Linux、Android、iOS 全系统,还提供 Web 客户端访问,致力于实现“远程如本地”的流畅体验。

图片

功能特性

  • 超低延迟传输:采用自研量子传输协议(QTP),动态调整码率,实测延迟低至5-15ms,支持4K/60帧高清传输,操作流畅无卡顿。
  • 全平台兼容:覆盖Windows、macOS、Linux、Android、iOS及Web端,设备间可互相控制,甚至支持树莓派等轻量设备。
  • 硬件加速编码:支持NVIDIA Video Codec、Video Toolbox硬件加速,兼容H.264/AV1编码格式,降低CPU占用率。
  • 强大网络穿透能力:无需配置路由器和防火墙,公司内网、家庭NAT、手机热点等场景均可直接连接,实现“傻瓜式”远程。
  • 安全可靠传输:采用SRTP加密和国密SM4算法,支持私有化部署,企业级操作审计和权限管控,保障数据安全。
  • 实用协作功能:支持多人实时协作控制、隐私屏模式、文件拖拽互传、协作白板,满足远程调试、培训等多场景需求。

项目地址:https://github.com/kunkundi/crossdesk

05 macOS轻量级录屏工具QuickRecorder

QuickRecorder是一款专为 macOS 设计的轻量级屏幕录制工具,基于苹果官方的 ScreenCapture Kit 框架开发,提供了流畅的录屏体验。该项目支持多种录制模式,包括全屏、窗口、应用程序以及移动设备录制,能够满足不同场景下的录制需求。

图片图片

相比其他录屏软件,QuickRecorder 的优势在于其出色的性能优化,用户可以在不影响系统流畅度的情况下录制高清画面。同时,软件体积小巧,安装包不到 5MB,却包含了众多专业级功能。

功能特性

  • 高效录制模式:支持屏幕、窗口、应用程序以及移动设备录制,灵活适应各种录制需求。 图片
  • 音频录制功能:支持免驱音频回环录制,无需额外配置即可录制系统声音,同时可录制麦克风音频。
  • 鼠标高亮与屏幕放大:在演示和教程录制时,能够高亮显示鼠标位置并支持屏幕放大,让关键操作更清晰。
  • Presenter Overlay:完全支持 macOS 14 的“演示者叠加”功能,可实时将摄像头画面叠加到录制内容中。 图片
  • HEVC Alpha 视频:支持录制包含透明通道的 HEVC 视频格式,适用于专业后期制作。
  • 跨设备录制:可以同时录制 Mac 屏幕 + iPhone/iPad 屏幕(适合需要手机+电脑混合内容的创作者)。 图片
  • 快捷键支持:集成 Swift 开发的快捷键库,提供流畅的快捷操作体验。 图片

项目地址:https://github.com/lihaoyun6/QuickRecorder

您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区(YunPan.Plus) ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-3 14:19 , Processed in 0.057413 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 CloudStack.

快速回复 返回顶部 返回列表