找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

510

积分

0

好友

74

主题
发表于 昨天 04:33 | 查看: 1| 回复: 0

大模型

智谱开源 AutoGLM 本地方案

智谱开源了 AutoGLM,这是一个可在本地部署的 AI 模型解决方案。用户可通过 USB 或 WiFi 连接手机,利用 SGlang 或 vLLM 框架进行部署。该方案通过 ADB 连接手机,其视觉语言模型(VLM)可进行屏幕查看并执行点击、滑动和输入操作,支持微信、淘宝、美团等超过 50 款中国应用。自去年11月开始内测后,近期发布的开源版本使得用户能够在本地自主使用这一AI模型。

jina-VLM:开源视觉语言模型

jina-VLM 是一个开源的轻量级视觉语言模型,参数量为2.4亿,基于 Qwen3 1.7B 微调而成。该模型旨在处理视觉和语言任务,提升图像理解与文本生成能力,适用于图像检索和内容生成等多种应用场景。
Image

评测

智谱 GLM-4.6V 多模态模型评测

智谱发布了 GLM-4.6V 多模态模型,分为106B基础版和9B轻量版,具备强大的视觉理解和原生工具调用能力。实测表明,模型在网页复刻、文档解读和商品比价等场景中表现出色,特别是在图文混排的内容生成上有显著进展。GLM-4.6V支持多轮交互修改,展现了在开发者生态中的潜力。

北大发布化学推理基准 SUPERChem

北京大学发布了化学大模型基准SUPERChem,旨在深度评估大语言模型的化学推理能力。该基准设计了高难度题目,并首次引入推理路径一致性(RPF)指标。评测显示,前沿模型如GPT-5的表现接近于低年级本科生水平,在高阶推理环节存在明显短板。
Image

利用 AI 实现手机操作

AutoGLM 开源后,有开发者利用 Claude Code 来实现对手机的操作。通过简单指令,Claude Code 部署了 AutoGLM,并自动调试修正错误,最终实现了用 AutoGLM 通过 ADB 连接手机执行发送微信消息等任务,形成了一个灵活的手机代理系统。

绘图与视频

Z-Image Turbo LoRA 微调工具

Z-Image Turbo LoRA 是一款基于 AC-RF 算法的高效 LoRA 微调工具,通过锚点耦合采样实现高效稳定训练。它支持10步快速推理以保持加速特性,并提供多种损失模式,具备自动硬件优化功能和基于 Vue.js 与 FastAPI 构建的现代化 WebUI。

商汤 Seko 2.0 与开源动画项目

商汤 Seko 2.0 升级支持多剧集连贯创作,可在一个项目中生成最多100集视频,强化了上下文记忆管理。另一方面,开源项目 One-to-All Animation 实现了免对齐的角色动画与图像姿态迁移,尤其擅长动态视频生成和身份一致性保持。
Image

工具与编码

提升效率的开源工具集

本部分汇集了多款提升效率的实用工具:键盘启动器 Ueli 可实现快速应用启动与搜索;Paper2Slides 能将研究论文等文档快速转化为专业演示文稿;cross-seed 能为 PT 用户实现自动化辅种。此外,16岁开发者 Kavish Devar 开源了 LibrePods 项目,通过逆向工程让 AirPods 在非苹果设备上实现降噪等完整功能。

n8n-skills:提升工作流开发能力

n8n-skills 是一个开源项目,旨在通过注入七项核心技能知识库,提升 Claude Code 对 n8n 开发规范的理解。它能自动识别 Webhook 数据结构,指导用户编写生产级 JavaScript 代码,有效解决节点参数配置错误等问题。

智能体与工作流

构建低成本数据库交互智能体

一个教程演示了如何结合开源模型 DeepSeek-V3.2 和 Claude Agents SDK,构建能与 MongoDB 数据库闭环交互的 AI 智能体。该系统通过分工明确的子智能体(读、写、查询)降低操作失误,为低成本构建 AI 应用提供了可行方案。

n8n 2.0 发布与任务调试

n8n 发布 2.0 版本,重点提升安全性与性能,包括默认启用隔离执行和限制代码节点访问环境变量,标志着其向企业级平台转型。同时,Dify 新版文章探讨了异步及定时任务的调试方法,涉及启动 worker 服务和 Redis 队列的使用。
Image

问题与安全

AI 工具的权限隐患与容器化对策

一则案例警示了 AI 工具因权限过大可能带来的数据安全风险:用户因路径书写错误,导致 AI 工具执行了错误的删除命令。文章提出使用 Dev Containers 等容器化技术作为解决方案,在隔离环境中进行开发,确保 AI 的操作不影响本地文件系统,从而提升安全性。这体现了云原生安全实践的重要性。

技术、观点与行业动态

Ngram Index 优化 LIKE 查询

Ngram Index 技术通过将文本拆分为固定长度子串并建立倒排索引,可将模糊的 LIKE 查询转化为精确的子串查询。测试表明,该技术在处理百万级长文本数据时,性能提升可达数百甚至上千倍。

行业观点与硬件动态

行业观点纷呈:马斯克提出通过卫星网络扩展全球 AI 算力的设想;DeepMind CEO 强调规模化是实现 AGI 的关键。硬件方面,英伟达 H200 芯片获准对华出口;字节跳动依托自研 UI-TARS 技术推出的豆包 AI 手机首批售罄;摩尔线程将举办首届开发者大会。

企业应用与学习资源

OpenAI 报告显示企业 AI 应用正快速深化,ChatGPT 企业版使用量大幅增长。对于希望入门的技术人员,推荐资源包括图文并茂的入门书籍、李宏毅教授的生成式 AI 课程以及高质量的技术播客,为系统学习人工智能领域知识提供了路径。




上一篇:pytest-html插件实战指南:生成自动化测试报告详解
下一篇:PyTorch实战:谱图卷积与混合注意力增强的CycleGAN处理数据不均衡故障诊断
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-12 08:14 , Processed in 0.111949 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表