找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3333

积分

0

好友

457

主题
发表于 2025-12-24 14:54:24 | 查看: 120| 回复: 0

在游戏开发中,大量可探索区域的环境与道具摆放,需要美术与关卡团队反复挑选资产、调整位置、尺度、朝向,并处理“有支撑、无穿插、留通行”等基础约束。这类工作细节密度高、迭代频繁,往往消耗大量制作时间。

腾讯游戏持续探索将AI能力与传统几何、物理工具链结合,在可控、可编辑的制作流程中,为场景搭建提供更稳定的辅助能力与可编辑的布局起点,帮助团队把更多精力投入到核心体验与细节打磨上。

这类能力主要用于研发制作环节:AI输出作为可编辑的候选方案,由美术、策划、程序在工作流中审阅、调整与验收。核心关卡、关键镜头与高关注区域仍以专业美术的创作为主;AI则更适合用于处理过渡区域、边缘区域与远景背景等非核心但必须覆盖的部分,在叙事合理性、资产风格一致性与基础空间美学、物理约束上提供辅助,减少PCG规则带来的重复感。

围绕这一目标,腾讯游戏技术团队提出了游戏场景自动布局生成系统 IntelliScene,并在持续迭代中形成 2.0 阶段的方案与原型。

游戏场景开发的核心痛点

在玩《荒野大镖客》、《塞尔达传说》等开放世界游戏时,玩家热衷于探索林中小屋、城镇民居等“不那么核心”的场景,而这些却是沉浸感的重要来源。大多数时候,这些场景需要美术专家团队手工搭建,整个过程高度依赖专家经验且耗时耗力。

从设计流程来看,这一过程如同冰山:水面之上是最终场景效果,水面之下则是策划、美术、程序等多角色协作的复杂设计链条。

图片

因此,探索以AI辅助乃至自动化部分环节,特别是大世界游戏中广阔非核心区域的重复性摆放工作,成为提升整体开发效率的关键。更适合优先推进的是可工程化、可验证的环节,例如大规模细节摆放的辅助、基础约束检查等,并通过白盒化与可编辑接口,保证结果可控、可追溯。

破局的视角:开发AI的空间智能

要让AI自动生成高质量、有逻辑的3D游戏场景,本质上是在解决一个更根本的问题——AI的空间智能。这意味着AI需要具备对空间结构、物体功能关系、叙事逻辑、物理约束等多层语义的整体理解,而不仅仅是快速摆放素材。

近年来,业界对世界模型(World Model)的研究投入,旨在让AI在虚拟世界中学习物理规则、适应复杂3D环境,从而获得类似“实体智能体”的认知能力。只有当AI具备空间理解、物理推理、目标规划等能力,它才能真正生成满足美学、逻辑与游戏性的完整3D场景。

明确设想:让AI学会“慢思考”的场景设计

传统方法如程序化内容生成(PCG)速度快但缺乏深层逻辑;纯数据驱动的AI模型则如同“黑盒”且依赖大规模数据。与之相比,人类专家的设计伴随着复杂的推理、规划和对布局的深刻理解,是一个“慢思考”过程。

基于此,我们提出了一个设想:通过AI模拟人类的“慢思考”过程,构建一个能够理解设计逻辑与技巧的智能系统。这需要开发一个多智能体系统,每个智能体负责特定任务,共同完成复杂的场景构建。

在最初的探索阶段,我们构建了 IntelliScene 1.0,尝试用多个基于大语言模型(LLM)的智能体协同完成小规模的场景装饰任务,验证了基于大模型的推理式摆放在逻辑上是可行的,且专家设计流程可以被抽象为可复用的标准作业程序(SOP)。

但其局限性也很明显:空间与物理理解不足,几何精度有限,纯文本交互限制了表达的丰富性。这些问题最终指向一个结论:文本推理未能充分利用视觉信息所蕴含的语义、空间和风格细节,而这正是人类专家设计时的关键依据。

解决方案:以视觉引导为核心的IntelliScene 2.0

IntelliScene 2.0 升级的核心思想是利用图像作为更丰富、更直观的指导来生成3D场景布局。与1.0相比,2.0版本通过图像蕴含的丰富信息(如语义、空间关系和风格)来驱动场景构建。

图片

IntelliScene 2.0的核心模块包括:

  • 高质量的3D资产库与带有设计思维链的场景图片数据集。
  • 强大的视觉引导与解析能力,结合了先进的图像生成模型和多种视觉基础模型。
  • 鲁棒的、融合视觉语义与几何信息的姿态估计算法。
  • 支持内部布局,提升细节真实感。
  • 高效的资产自动标注系统。

AI工作流程:从概念到3D场景的构建

IntelliScene 2.0构建了一个多智能体工作流,模拟专业美术设计师的设计过程。整个过程信息白盒化,用户可随时干预。具体流程如下:

图片

第一步:构建高质量场景数据集
我们构建了一个包含约500个类别、总计超过2000个高质量写实3D模型的资产库。同时,建立了一个包含20个场景类别、共计147个高质量写实3D场景的数据集,每个场景都是带有“设计思维链”的高美学分数数据集,满足故事性、美学价值与清晰度要求。这些数据集为后续的视觉引导提供了坚实基础,也是训练更复杂人工智能模型的宝贵资源。

第二步:模型微调实现视觉引导生成
在拥有高质量数据集的基础上,我们以 FLUX 为基础模型进行微调,使其能够生成既符合资产库风格、又具备美观布局的引导图像。微调过程借鉴了 DreamBooth 的思路,并将其对齐范围从单个物体扩展至整个场景中的多个物体。

图片

实验结果表明,经过微调后的FLUX模型,在生成图像与3D模型库的对齐性上有了显著提升,且保持了生成多样化场景的能力。

第三步:视觉解析与提取几何特征
生成引导图片后,系统需要对其进行精确解析。这依赖于“场景DCC搭建Agents”,它们负责图像解析、3D模型检索、精确姿态估计和布局优化。

首先,综合运用多种视觉基础模型进行前景物体的检测与分割。针对可能存在遗漏的情况,设计了一套补充检测与分割的算法流程。

在获得物体的2D分割后,进行深度估计,并结合深度图和预估的相机内参,将深度图像“提升”为3D点云。然后对每个物体的对应点云进行有向包围盒(OBB)拟合和去噪,得到物体在3D空间中的大致位置和尺寸。这一系列计算机视觉操作是理解场景几何结构的关键。

第四步:场景图构建与全局优化
在理解单个物体后,通过构建“场景图”(Scene Graph)来建模物体之间的复杂关系。该方法在2.0版本中升级为基于视觉语言模型(VLM)的实现方式。

图片

接着,从资产库中检索最匹配的3D模型。检索方案综合考虑类别、外观特征和尺寸信息。

最关键的一步是精确还原物体在引导图像中的6D位姿(位置和朝向)。我们采用了从粗到精的渐进优化策略:

  1. 粗筛选:为3D模型生成大量不同角度的“标准照”,利用DINOv2模型比较特征相似度,挑出Top-K候选朝向。
  2. 精细择优:量化候选朝向的形变程度,精准估计物体方位。
  3. 几何信息增强:引入基于场景点云计算的物体3D包围盒(OBB)主要朝向面作为几何参考方向,自适应融合视觉与几何信息,提升旋转估计的稳定性和准确性。

最后,针对可能出现的物体穿插、悬空等布局不合理问题,引入全局优化机制。该方法利用场景图中的逻辑关系作为硬性约束,在保证无重叠、有支撑等物理条件的同时,最小化位置调整幅度,并通过模拟退火等算法搜索全局最优解。此外,还会引入简单的物理仿真来进一步调整物体的最终摆放姿态。

效果评估与可视化

我们进行了一系列实验评估。首先,邀请了100名美术专业的学生,对我们的方法与几种先进方法生成的无纹理场景,在“合理性与现实性”以及“美学吸引力”两个维度上进行偏好率评估。我们的方法在两个维度上均获得了显著更高的用户偏好率。

图片

此外,还邀请了资深游戏美术从业者对生成的带有纹理的完整3D场景进行质量评估(1-5分制,3分代表人类专业人士平均水平)。评估聚焦于整体场景构图、语义逻辑合理性以及美学吸引力三个维度。结果显示,AI生成结果在专业人士看来质量很高,有些案例甚至难以与人工摆放区分。

总结

IntelliScene 2.0 的研发,为AI理解与生成三维信息提供了新的路径。它不仅学习了人类设计师的美感,更掌握了场景布局背后的逻辑,使生成的场景更加逼真、富有沉浸感。

这一过程也带来三点启发:

  1. 多智能体协作是解决复杂AI任务的有效路径。
  2. 在3D场景生成中,视觉与结构化语言的结合能互相补强。
  3. 高质量的、蕴含专家思维链的数据,是构建有效AI场景生成能力的根本。

游戏场景因其高度复杂的三维结构、物理规则与叙事要求,是训练AI空间认知能力的理想平台。我们当前的系统,可以为训练下一代具备更强空间认知能力的多智能体系统提供海量高质量的结构化场景数据,持续探索让游戏成为攻克人工智能前沿难题的重要试验田。




上一篇:Android APP抓包与frida脱壳实战:破解SSL单双向认证及Root检测绕过
下一篇:量化交易低延迟技术解析:机房托管如何影响A股交易公平
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-9 13:35 , Processed in 0.304901 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表