找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1113

积分

0

好友

163

主题
发表于 4 天前 | 查看: 29| 回复: 0

一、大模型动态

Cerebras发布DeepSeek-V3.2剪枝版本

Cerebras 推出了 DeepSeek-V3.2 剪枝版本,包括 508B 和 345B 两个版本,体积分别减少了 25% 和 50%,适合机器资源紧张的本地部署场景。该版本继续使用 REAP 剪枝方法,智能选择和移除冗余专家以压缩 MoE 模型。值得注意的是,Cerebras 并未发布更全面的测试结果,仅提供了 HumanEval 和 MBPP 的测试数据。同时,345B 版本在这两项测试中的得分高于 508B,显示出不同版本之间的性能差异。

相关链接:https://huggingface.co/cerebras/DeepSeek-V3.2-REAP-345B-A37B
相关链接:https://huggingface.co/cerebras/DeepSeek-V3.2-REAP-508B-A37B

Mistral AI发布新开源编程模型Devstral 2

Mistral AI 发布了新一代开源编程模型 Devstral 2(123B 参数)和命令行工具 Mistral Vibe CLI。Devstral 2 作为旗舰级模型,专为代码智能体设计,在 SWE-bench Verified 中得分 72.2%,显示出卓越的性能。其相较于竞争对手 Claude Sonnet 提高了成本效率,最大可达 7 倍,并支持 256K 上下文窗口,适合复杂任务。与此同时,Devstral Small 2(24B 参数)为轻量级模型,能够在普通硬件上运行,得分 68.0%。Mistral Vibe CLI 工具可自动理解项目上下文,并支持跨文件协作与智能交互。整体来看,Mistral AI 的新产品有助于提升开发效率。

Image

相关链接:https://x.com/MistralAI/status/1998407332502405347

FAS模型:提升代码搜索效率

FAS(Fast Agentic Search)是 Relace 发布的一款专为代码库搜索任务优化的小型智能体模型。通过结合并行工具调用和专门的强化学习策略,FAS 在保持与传统模型相当的准确率的同时,将搜索速度提升至原来的 4 倍。此外,FAS 采用了任务分离的架构,将 “搜索” 任务专门交由 FAS 处理,从而节省了主模型的计算资源,并减少了无关上下文对主模型判断的干扰。在实测中,FAS 在 SWE-bench 测试中显示出中位延迟降低了 9.3%,Token 消耗减少了 13.6%。这一发展标志着 AI 代理的一个重要趋势,即向专家子模型协作转变。

Image

相关链接:https://x.com/EBorgnia/status/1998072477835206700

OpenAI新图像模型与谷歌竞争升级

OpenAI 近期推出了两款神秘图像模型 Chestnut 和 Hazelnut,预计将与 GPT-5.2 一同发布。这两款模型在测试中与谷歌的 Nano Banana Pro 进行对比,结果显示 OpenAI 的生图质量不及谷歌,尤其在生成面部效果方面显得不够真实。尽管 Chestnut 和 Hazelnut 在某些方面有所提升,但整体表现仍被开发者评价为逊色。谷歌的 Nano Banana Flash 新模型也即将发布,具有将游戏画面转化为真实图像的能力,进一步增强了竞争的紧迫感。

Image

智谱AI发布GLM-ASR语音识别模型及输入法

智谱 AI 发布了 GLM-ASR 系列语音识别模型,并推出基于该系列模型的桌面端智谱 AI 输入法。GLM-ASR-2512 为全球领先的云端语音识别模型,字符错误率(CER)为 0.0717。开源的 GLM-ASR-Nano-2512 则是一个 1.5B 参数的端侧模型,在隐私保护与交互延迟方面表现优异。智谱 AI 输入法实现了语音与文字的高效交互,用户可以通过语音完成翻译、改写等操作。此外,输入法支持个性化的人设风格切换及针对开发者的 Vibe Coding 功能,提升了使用体验。

相关链接:https://docs.bigmodel.cn/cn/guide/models/sound-and-video/glm-asr-2512
相关链接:https://bigmodel.cn/trialcenter/modeltrial/voice

谷歌缩减AI Studio免费API供应

谷歌宣布缩减其在 AI Studio 中提供的免费 API 服务,主要涉及 Gemini 2.5 Pro API 的取消和 Gemini 2.5 Flash 的免费调用次数大幅减少。此外,Banana API 的并发数也被削减,而 Gemini 3 Pro 的额度同样受到影响。这一系列调整旨在为 Vertex 释放 TPU 资源,主要因为 Banana Pro 的需求异常旺盛。

INTELLECT-3模型及其分布式RL训练框架开源

Prime Intellect 发布了其最新模型 INTELLECT-3,这是一款具有 106B 参数的混合专家模型,使用分布式强化学习(RL)技术进行训练。该模型在多个基准测试中展现出色表现,特别是在数学、代码和科学推理等领域。整个训练过程和相关资源均已开源,旨在促进大规模 RL 研究的普及。INTELLECT-3 的训练框架包含 PRIME-RL、自研的分布式 RL 框架,以及与 Environments Hub 的深度整合。研究人员在 64 个互联节点上使用 512 张 NVIDIA H200 GPU 进行训练,强调了分布式系统在提升训练效率和稳定性方面的重要性。

Image

相关链接:https://www.primeintellect.ai/blog/intellect-3

阿里千问免费开放四大AI核心功能

阿里千问在公测 23 天内吸引了 3000 万月活用户,并免费开放了 AI PPT、AI 写作、AI 文库和 AI 讲题四项核心功能。AI PPT 支持一站式生成和对话修改,AI 讲题能够详细解析数学题并进行作业批改,AI 文库提供 5 亿级资料免费下载,涵盖多个领域,AI 写作则允许用户直接对话生成 Word 文档。

Meta研发“牛油果”模型,战略或转向闭源

Meta 正在研发一款名为 “牛油果”(Avocado)的前沿模型,预计将在 2026 年第一季度发布,取代其开源的 Llama 模型。此次发布被视为 Meta 在 AI 战略上的转变,Avocado 可能会成为一款闭源模型,限制第三方对其进行访问和改进。这一变化部分源于 Llama 4 表现不如预期,并与市场上其他科技公司的激烈竞争有关。

二、模型评测与应用

谷歌Gemini 3 Pro多模态能力超越GPT-5.1

谷歌最近发布了技术博客,展示了其最新的 Gemini 3 Pro 在多模态能力上的显著进步。根据多个基准测试,Gemini 3 Pro 在多模态理解与推理能力上得分达 81%,超越了 GPT-5.1 和 Claude Opus 4.5。此外,该模型在空间理解和屏幕理解方面表现优异,前者的准确率为 85.5%,后者达 72.7%。Gemini 3 Pro 还具备强大的文档理解能力,可以将复杂的手写账簿转化为结构化表格,并能对视频进行高帧率的因果推理分析。

Image

GLM-4.6V实测表现

GLM-4.6V 经过实测,展现出在多个场景中的优越性能,特别是在 OCR 和处理 PDF 方面。模型成功识别外卖小票信息,包括消费详情和过敏原分析,显示出其出色的文本识别能力。PDF 测试中,模型能提取简单布局的内容并生成相关文案,但在复杂排版时表现不佳,常将整页视为图片。与之前的 GLM-4.5V 相比,GLM-4.6V 在性能上有进一步提升。

Image

相关链接:https://x.com/karminski3/status/1998294343179002184

2025年十大AI研究机构排名发布

LMArena 发布了 2025 年十大 AI 研究机构排名,其中 Google 名列第一,阿里巴巴在国内排名第一,紧随其后的是月之暗面、智谱、DeepSeek 和百度。从生态角度来看,阿里在多个方面的表现优异,其他机构则仅在一到两个领域有所建树。此外,OpenAI 在数据表现上位列第四。

Image

相关链接:https://x.com/arena/status/1998536014000959497

AI编程智能体能力评测:Orchids领先

App-Bench 是一个评估 AI 编程智能体能力的基准测试框架,旨在检测其能否在无人工干预的情况下,仅凭自然语言提示生成完整的现代 Web 应用程序。评测覆盖六个复杂场景,包括金融仪表盘、医院管理、法律助手等。结果显示,即使是表现最好的工具 Orchids,仅覆盖了约 77% 的必要功能,且在复杂任务上普遍存在缺口。最终排名中,Orchids 以 76.8% 的分数位列第一。

Image

相关链接:https://x.com/orchidsapp/status/1998426257504006222
相关链接:https://appbench.ai/

Lovart设计工具体验:传统PS时代面临挑战

体验 Lovart 的新功能后,作者认为传统 Photoshop 时代已结束。Lovart 的 Touch Edit、Text Edit、Edit Elements 和 Mockup 等功能显著提升了设计效率,用户可轻松对图片进行直接编辑,无需掌握复杂的 PS 操作。自推出以来,Lovart 的用户数已超过 1000 万,年收入达 8000 万美元,显示出其广泛的市场接受度。

Creaibo AI写作工具全流程体验

Creaibo 是一款由 B 站 UP 主 “图灵的猫” 开发的 AI 写作工具,旨在帮助创作者从选题到素材生成实现全流程创作。用户只需上传旧稿,Creaibo 会分析并生成写作 MBTI 风格报告,提供详细的风格指标如句长、用词习惯等。此外,它的灵感画布功能允许用户通过可视化思维流程,轻松生成选题和大纲。

Image

相关链接:https://www.creaibo.io

三、绘图与视频技术

Qwen-Image-i2L:单张图片生成LoRA模型

Qwen-Image-i2L 是由 DiffSynth-Studio 团队开发的一种新型 AI 工具,能够通过分析单张图片生成一个 LoRA 模型,使用户能够轻松地将特定艺术风格或特征融入其他 AI 模型中。与传统方法需要多张一致风格的图片和复杂的训练参数设置不同,Qwen-Image-i2L 仅需一张图便可提取风格特征并生成小型、可直接使用的 LoRA 文件。该模型具有可控规模和离线使用的优点,但在风格泛化、细节复现等方面仍有局限,目前仍处于实验性阶段。

Image

相关链接:https://www.xiaohu.ai/c/a066c4/qwen-image-i2l-lora
相关链接:https://modelscope.cn/models/DiffSynth-Studio/Qwen-Image-i2L/summary

ListenHub推出AI PPT制作工具

ListenHub 推出 PPT AI 工具,能够将上传的文章或 PDF 文档自动转化为 PPT,并生成配套的视频讲解。该工具简化了内容生产流程,使创作者只需一次上传即可获得文字、图片、音频和视频等多种素材。此外,ListenHub PPT 提供上万种美学模板,并具备复刻设计风格的功能。

Image

相关链接:https://listenhub.ai

商汤科技SekoTalk实现实时语音驱动数字人生成

商汤科技推出了实时语音驱动数字人技术 SekoTalk,显著提升了视频生成效率,达到 25 fps 的生成速度,首帧延迟仅为 3.5 秒。该技术支持多人和多语言口型精准匹配,并实现超长时稳定生成。与其他方案相比,SekoTalk 在生成效率和性价比上表现优越。通过模型蒸馏和优化设计,SekoTalk 在保持高生成质量的同时,降低了推理开销。

Image

相关链接:https://sekotalk.com/
相关链接:https://github.com/OpenSenseNova/SekoTalk

四、开发工具与平台

Easy LLM CLI:支持多模型的终端AI工具

Easy LLM CLI 是一个开源项目,旨在解决开发者在终端使用不同 AI 工具时面临的限制。该工具基于 Google Gemini CLI 二次开发,支持多种模型,包括 Gemini、OpenAI、Claude 和 DeepSeek,甚至可通过 Ollama 接入本地模型。它兼容模型上下文协议(MCP),能够读取代码库上下文,从而帮助用户自动执行 Git 操作、重构代码或生成应用。

openrouter.webp

相关链接:https://github.com/ConardLi/easy-llm-cli

Claude Agent SDK更新,支持百万上下文

Claude Agent SDK 进行了更新,原名 Claude Code SDK,此次更新使得 Claude Code 成为当前最优秀的 Agent。新版本支持高达 100 万的上下文,并引入了沙箱功能,同时对用户界面进行了更新优化,提升了使用体验和操作便捷性。

Google Search Console新增多维度数据查看

Google Search Console 最近进行了更新,新增了按周、按月和按小时查看数据的功能,这对于想要分析长期趋势的网站管理者尤为重要。以前,用户只能按日查看数据,数据更新时常延迟,最高可达 72 小时。此次更新让用户可以更方便地进行趋势分析,识别流量变化规律。

蚂蚁集团「灵光」AI助手网页版上线

蚂蚁集团宣布其全模态通用 AI 助手「灵光」正式上线网页版,进一步增强了其多端生态布局。用户现在可以通过浏览器访问该平台,体验包括「灵光对话」和「灵光闪应用」在内的核心功能。灵光网页版继承了其在移动端的优势,允许用户在电脑上用自然语言生成小应用,并实现与移动端的数据同步。

Image

相关链接:https://www.lingguang.com

五、智能体(Agent)生态

亚马逊发布Kiro自主Agent等新产品

亚马逊在 re:Invent 2025 上推出了新一代的 Agentic AI 产品,包括 Kiro 自主 Agent、Nova 2 模型和安全 / 运维 Agent,旨在为企业提供一整套 AI 助手服务。新的 Trainium3 UltraServers 提高了算力和能效,使得模型训练成本显著降低。Nova 2 模型分为四个版本,均支持 100 万 token 的上下文,并具备网页搜索和代码执行功能。Kiro Autonomous Agent 能自主编写和审查代码。

科技巨头成立AI智能体互操作标准基金会

Linux 基金会宣布成立智能体 AI 基金会(AAIF),旨在作为中立的开源项目托管平台,推动全球科技巨头在 AI 智能体领域的合作。包括 Anthropic、OpenAI 和谷歌在内的多家公司已成为创始成员,并将贡献开源项目以构建开放标准。当前,AAIF 围绕三大项目展开:Anthropic 的模型上下文协议(MCP)、Block 的 Goose 项目和 OpenAI 的 AGENTS.md 规范。这些项目旨在实现 AI 智能体与外部工具的标准化,提高系统的互操作性。

阿里云推出一站式Agentic AI平台AgentRun

阿里云推出了函数计算 AgentRun,旨在为企业提供一个一站式 Agentic AI 基础设施平台。该平台以全球领先的 Serverless 技术为基础,结合了高代码开发模式,帮助企业实现成本与效率的优化。AgentRun 支持毫秒级的弹性伸缩、会话亲和机制和企业级安全沙箱,提供全生命周期的 Agent 管理。该平台允许企业快速构建、部署和运维 AI Agent,并实现无代码或高代码开发,适用于多种企业生产场景。

六、前沿技术研究

从“规模法则”到“密度法则”的转变

OpenAI 前首席科学家 Ilya 提出 “规模法则” 面临可持续性瓶颈,引发对大模型未来发展的讨论。面壁智能肖朝军博士团队提出 “密度法则”,强调未来大模型的关键在于 “能力密度”,即每单位参数所包含的智能水平。研究显示,大模型不再单纯追求规模,而是通过提高能力密度来提升智能表现。其研究表明,能力密度呈现指数级增长趋势,预计每 3.5 个月翻一倍,标志着大模型的一个新方向。

DeepSeek-V3.2技术报告概述

DeepSeek-V3.2 技术报告提出了一种创新的稀疏注意力机制(DSA),显著降低了处理长文本的计算复杂度,从几何级数降低到线性水平,提高了模型的效率和准确性。该模型通过大规模强化学习与专家蒸馏相结合的训练策略,使其在逻辑推理和数学解题能力上取得了突破,展现出强大的智能体能力。根据行业评估,DeepSeek-V3.2 在多个权威基准测试中与谷歌的 Gemini-3.0-Pro 持平,并在部分复杂任务上优于 GPT-5。

相关链接:https://huggingface.co/papers/2512.02556

北大团队实现高性能2比特模型量化

北京大学团队推出了一个名为 Fairy2i 的通用框架,实现了在仅 2 比特情况下的模型量化,性能媲美全精度 FP16。该框架通过将实数模型无损转换为复数形式,并结合相位感知量化和递归残差量化技术,有效解决了大模型在手机等边缘设备上高效部署的难题。Fairy2i 在 LLaMA-2 7B 模型上取得了 7.85 的困惑度和 62.00% 的平均准确率,接近全精度模型的性能。

相关链接:https://arxiv.org/abs/2512.02901
相关链接:https://github.com/PKULab1806/Fairy2i-W2

Milvus 2.6引入分层存储技术

Milvus 2.6 引入了分层存储(Tiered Storage)技术,解决了以往版本全量加载造成的性能和成本问题。通过将数据加载模式从 “全量预加载” 转变为 “按需加载”,系统能有效将 80% 的冷数据卸载至对象存储,从而节省 80% 的内存开销。核心技术包括延迟加载、部分加载和基于 LRU 的智能淘汰机制,使得热数据常驻本地,冷数据按需加载。测试结果显示,加载时间缩短至 45 秒,效率提升达 33 倍,同时资源占用大幅降低。

七、AI资源与行业观点

AI Agent架构实战资源推荐

all-agentic-architectures 提供了 17 种主流 AI Agent 架构的实战案例,是学习智能体设计的理想资源。该项目涵盖从基础的 ReAct 到进阶的多智能体协作、自我反思与修正等内容,利用 LangGraph 进行编排,深入解析思维树、长期记忆管理及黑板系统等复杂模式。项目还提供了完整的可运行 Jupyter Notebook,将抽象概念转化为可操作的代码。

相关链接:https://github.com/FareedKhan-dev/all-agentic-architectures

谷歌发布五篇AI Agent白皮书

谷歌上月发布了五篇关于 AI Agent 的白皮书,总计超过 250 页,涵盖智能体的定义、工具扩展、长期记忆、评估方法和生产环境部署等重要主题。白皮书指出,智能体不应被误解为聊天机器人,而是具备目标和行动循环的系统。谷歌强调,智能体的能力应在复杂环境中持续表现,而非仅限于封闭任务。

Image

相关链接:https://www.kaggle.com/whitepaper-introduction-to-agents

从“氛围编码”到严谨的AI辅助工程

Google 工程负责人 Addy Osmani 的新书《Beyond Vibe Coding》旨在纠正 “Vibe Coding” 的误区,为构建生产级软件提供严谨的 AI 辅助工程框架。书中指出,虽然 Vibe Coding 能迅速完成 70% 的工作,但剩余 30% 则需深厚的工程背景才能解决。引入 “先规划,后编码” 原则、上下文工程及进阶提示策略,以确保 AI 生成代码的质量和安全性。

相关链接:https://beyond.addy.ie/

AI行业战略动态摘要
  • 华为成立基础大模型部:华为正式成立基础大模型部,旨在推进基座模型的研发与应用,并面向全球发布AI人才招募令。
  • 微软巨资投入印度AI基建:微软计划在印度投资175亿美元,推动AI基础设施建设,重点建设超大规模数据中心。
  • OpenAI暂停Sora聚焦ChatGPT:OpenAI决定暂停Sora项目,集中力量提升ChatGPT,以应对竞争压力。
  • 阿里巴巴重组成立千问C端事业群:阿里巴巴成立千问C端事业群,目标是将千问打造成AI时代的超级APP。



上一篇:HSPICE仿真标准单元反相器:从CDL网表到瞬态特性仿真全流程
下一篇:NewBie-image-Exp0.1开源模型解析:3.5B参数Next-DiT架构生成高质量动漫图像
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-17 17:28 , Processed in 0.114402 second(s), 43 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表