Nature:生成式AI模型如何用于辅助人类创意设计

导语
生成式人工智能目前已经火遍全球,无论是文本、图像还是视频,都已经达到了以假乱真的地步。然而,逼真性并不是我们追求的唯一目标,我们更希望的是AI强大的生成能力能够辅助我们人类的创意工作。游戏被称为第九种艺术,它可以通过提供包括视频、音乐、文本等多方位的交互式体验而展现出其丰富的复杂特征。那么,生成式AI能够辅助游戏设计师进行游戏设计吗?以前的研究虽然已有大量的探索,但是在AI与人类设计师的创意结合过程中仍然面临许多不足与挑战。在近期发表于《自然》(Nature)期刊上的研究则指出若想让生成式AI能够真正辅助人类的创意设计,就需要让生成式AI模型具备三大特性,即一致性、多样性和用户修改的保持特性。这三种特性不仅对游戏设计具备启发作用,它同样为我们探索如何将生成式AI用于辅助人类的创造力方面起到了积极作用。
——张江

摘要
生成式人工智能技术有可能导致未来创意产业的巨大变革——即通过支持人类的创意构想(新想法的生成[1,2,3,4,5])而颠覆整个产业。然而,如今的模型能力不足有可能提出了新的挑战,使得这些技术更全面地融入创意实践仍很困难。迭代调整 (Iterative tweaking) 和发散式思维 (divergent thinking) 仍然是通过技术支持创意实现的关键[6,7],而这些实践尚未得到现有最先进生成式人工智能模型的充分支持。以游戏开发为例,我们证明了通过理解用户需求来驱动生成式人工智能模型的开发和评估,我们可以让这些模型与创意实践保持对齐。具体而言,我们引入了最先进的生成式模型——世界与人类动作模型(WHAM),并展示了它能够生成一致且多样化的游戏玩法序列,同时可以持续保持用户的修改调整——我们确定这三项功能对于实现这一模型与创意实践的对齐至关重要。与之前需要手动定义或提取结构以支持创意工具的方法相比,生成式人工智能模型可以从可用数据中学习相关结构,从而开辟了更广泛的应用潜力。
生成式人工智能可以通过使用机器学习模型来生成文本[8,9]、图像[10,11],音频[12,13],音乐[14],视频[15,16]或电子游戏的游戏玩法序列(gameplay sequences)[17,18,19],这些技术都已经在创意产业中得到了快速的应用[1,2,3,5]。例如,生成的图像可用于促进具有不同技能的团队成员之间的沟通,或者当艺术家不能参与时,系统能自动执行视觉生成任务[4]。然而,研究表明,生成式人工智能的能力往往无法达到创意从业者的期望,这给这些技术更全面地应用于创意实践带来了关键性的挑战[1,4,5,20,21]。
通过游戏行业之一独特视角,我们探索了人工智能技术如何变革以支持人类创造力的实现[22]。3D游戏开发的需要多样化的创作技能[23],这种复杂性为构建生成式人工智能以实现所有创意职业提供了多个视角。此外,游戏玩法数据的丰富性和多样性也为创新提供了重要机遇。这种时间相关的多模态数据使得我们可以探索从生成3D世界及其机制到与非玩家角色(即NPC)互动等各种复杂的任务。最后,游戏业是全球最大的娱乐行业,目前已覆盖超过30亿人[24]。因此,游戏工作室正在探索人工智能如何帮助他们满足日益增长的内容创作的需要[21]。
本文展示了我们如何通过理解用户需求来设计和评估生成式人工智能模型的方法,并促进了与这些创意实践相一致的生成式人工智能模型的开发。我们从总结27名游戏开发领域的创意从业者的用户研究结果开始,阐述了发散式思维和迭代式实践[6,7]在如何利用生成式人工智能实现有意义的新颖性创造方面的重要作用。基于这些见解,我们确定了一组生成模型的能力,即一致性、多样性和持续性(见图1a–c),这些能力对实现创意构思可能至关重要。我们引入了一种新型的生成模型WHAM,并使用人类游戏游玩数据进行训练以实现这些能力。我们展示了WHAM能够生成一致且多样的游戏玩法序列,并在适当提示下保持用户修改。最后,我们描述了一种名为WHAM演示器的概念原型(图1d),以支持创意用途的探索和对支持创意实践所需模型能力的进一步研究。我们在https://huggingface.co/microsoft/wham上发布了WHAM的模型权重、评估数据集和WHAM演示器,以供进一步的研究和探索。




通过与游戏开发创意人员进行的用户研究(“用户需求”部分),我们确定了三项关键的模型能力,这些能力可以通过WHAM生成的游戏玩法序列来体现(“WHAM”节),并在WHAM演示器(“WHAM演示器”部分)中展示。a. 一致性(Consistency)能力:生成的序列应在时间上保持一致,并符合游戏机制。图中展示的为玩家角色按照游戏世界已建立的物理规律爬上了楼梯。b. 多样性(Diversity)能力:模型应生成大量多样化的序列,以反映不同的潜在结果,从而支持发散式思维。图中所示的模型生成了三种合理的序列,这些序列展示了角色可能遵循的不同路径。c. 持续性 (Persistency) 能力:模型应保留用户对游戏视觉效果和控制器所做的修改,并将其整合到生成的游戏玩法序列中。在这张图中,右侧图中由用户添加的角色(修改)已被纳入到左侧所展示的生成图像中。d, WHAM演示器的截图。这是一个概念原型,提供了一个可视化的界面,以便与WHAM模型进行交互,包括多种促进模型的方法。请参阅补充视频1以获取视频案例研究。
视频1
我们的工作建立在有关计算创造力 (Computational Creativity) [7,25,26]和程序化内容生成(procedural content generation)的丰富研究基础上的[27,28,29,30,31,32](译者注:计算创造力也被称为人工创造力、机械创造力、创造性计算或创造性计算等,这是一个跨学科的研究领域,位于人工智能、认知心理学、哲学和艺术等领域的交叉点https://en.wikipedia.org/wiki/Computational_creativity,程序化生成是一种通过算法创建数据的方法,而非手动操作,通常通过结合人生成内容和算法,并结合计算机生成的随机性和处理能力来实现。https://en.wikipedia.org/wiki/Procedural_generation)。如今,生成式人工智能方法由于其广泛的适用性有可能弥补先前研究成果的不足:它们可以从适当的训练数据中学习复杂领域(如3D视频游戏)的丰富结构,从而避免人们手动地精心打造这些结构。同时,我们的研究表明,在使用生成式人工智能模型进行构思的背景下,迭代实践和发散性思维仍然至关重要。通过针对这些提议的能力进行模型优化,我们将机器学习研究引向支持人工智能与人类合作的创意之中,使人类的创造力和主动性得到提升。
用户需求
用户需求
访谈研究
为了更好地了解游戏开发领域的创意人员的需求,我们与来自不同工作室的多学科创意团队进行了半结构化式的访谈。在每次访谈会议中,同一工作室的三到四位创意人员都会与一个“设计探针” (Design probe) [33](见“方法”部分的“设计探针”和扩展数据图1a中的详细内容)进行互动,该探针提供了一组虚构但具体的生成式人工智能潜在能力,用于激发思考。参与者描述了生成式人工智能可以在哪几个方面对游戏创意或前期制作(见“方法”部分中的“游戏开发流程”)提供支持,同时参与者的创作主动权还能得到保护。
针对参与者关于人工智能与创意实践的讨论,我们利用主题分析方法(thematic analysis)[34](见“方法”部分的“数据分析”和扩展数据图1b)对讨论记录进行了分析(译者注:主题分析是一种定性研究方法,通常被用于识别、分析和解释给定数据集中的共享主体或意义的模式。)。我们确定了两个对人工智能模型开发有意义的主题:(1)创意人员需要将他们的发散性思维(“发散性思维”部分)在特定情境下融入一个一致的游戏世界中,以实现有意义的新体验;(2)为了体验创作主动性,创意人员需要对迭代过程(迭代实践)拥有控制能力,例如,他们的直接修改会被采纳,并可以指导模型不断地朝这些修改的方向演化(“迭代实践”部分)。
发散思维
研究中的创意人员已利用生成式人工智能模型来寻找灵感,驱动发散性思维以产生新想法,就像其他文献中所示的那样[21]。然而,创意人员提到,新颖性需要在专业实践的一致性中被框定。这仍然是当前生成式人工智能模型所面临的挑战。例如,在游戏开发中,一致性包括:维护游戏世界的物理规律;遵循游戏和工作室的风格;保持游戏关卡的特定氛围和情感;以及确保与游戏更大叙事的一致性。而多样性可能适用于玩家采取的路径。如果没有情境的一致性,生成输出的多样性可能会缺乏重要意义。正如一位参与者所分享的:
生成式人工智能在上下文理解方面仍然存在局限性。这意味着,人工智能很难考虑整体体验,并在此基础上进行迭代生成。此外,由于其不一致性,人工智能在遵循特定规则和机制方面仍然表现不佳。
——某独立工作室的用户体验副总裁
换言之,支持创意不仅仅是关于新颖性的,而是将这种新颖性融入到互动式体验或游戏的连贯性中。因此,生成式人工智能模型需要将多样性与一致性相结合,以确保输出既新颖又有实用价值的内容。
迭代实践
理念形成过程中迭代的重要性在“创造力支持”(creativity support)的文献中已有详细描述[37,38]。我们研究中的参与者频繁强调了迭代实践的重要性,这凸显了这一主题在生成式人工智能赋能的创意应用背景下依然至关重要。
特别是,参与者谈到要创造出感觉“合适”的东西,这强调了游戏创作者对于构成每个设计决策的众多细微元素的直觉。无论是角色的动作节奏,还是抓钩的弧线设计,创作者都会投入大量时间对这些看似微小的细节进行微调。正如一位参与者所说:“细节才是真正微妙的游戏体验所在。”然而,这种“合适”的感觉往往在创作伊始并不清晰,随着过程的推进才逐渐明朗:
直到看到结果之前,我们很难知道什么是正确的输出,因此还需要反复打磨和尝试。这需要经历很多试错。作为游戏设计师,我们甚至不会意识到那些需要做出数以千计小决策的细节。但我们只是知道有些地方不对劲儿,然后进行调整。
——某独立游戏工作室的首席运营官
此描述说明了创意人员通常如何在视觉媒介上工作,他们通过多次小规模的迭代直接操控所创造的内容。迭代的过程超越了单一的输出:许多参与者指出,他们会在不同的迭代之间进行动态的来回探索,以从中汲取灵感并尝试将多样化元素融合的可能性。为了通过迭代调整来促进创意,生成式人工智能模型应该突破基于文本的提示局限,从而支持对生成内容的直接操控,具备采纳用户意见的能力,并支持不同迭代之间的融合。
评估模型能力
评估模型能力
对发散式思维的支持和迭代实践的方法在相关丰富的文献和实践中已有多种探讨[7,26,37],但就生成式人工智能而言,我们发现了这个重要的空白区域。基于用户研究的结果,并结合已有文献的洞见,我们提炼出一套评估标准,即“模型能力”,以评估生成式人工智能模型在支持创意实践方面的多样性、一致性和持续性能力。
为了以具体的例子说明所确定的评价标准的含义及其实现方式,我们假设了生成式人工智能在最一般的视频游戏“人机接口”上运作,它能生成游戏画面序列(玩家在屏幕上看到的画面,此处称为“帧”)以及玩家控制器的操作动作。但这些评价标准却具有更广泛的通用性,可在不同模态如语言、音乐等中实现。
为了支持迭代实践,首要重要的标准是模型在用户迭代过程中要保持一致性。这意味着生成的帧流必须在自身之间保持一致(例如帧与帧之间),同时在游戏机制方面也要一致,例如固体物体不能穿过墙壁。在这种一致性中,发散式思维的创意实践需要多样的生成结果。例如,如果生成了三个可能的延续方式,它们应该以有意义的方式存在差异:例如这种差异可以体现在生成的玩家动作中,或是在队友或对手角色对这些动作的反应方式上。最后,用户应该能够修改生成的序列,且任何修改都应是持久的。如果创作者希望通过调整某一帧来影响模型的输出,那么这种调整应是生成的焦点,且在接下来的几帧后不会消失。
WHAM
WHAM
既然我们已经建立了实现赋能创作者的AI系统所需关键能力的认识,我们建立了一个初始模型,以展示了现代人工智能方法如何朝实现这些能力的目标上前进。
我们开发的WHAM模型模拟了现代视频游戏的时序动态。WHAM通过人类游戏数据的训练,学习预测游戏画面(“帧”)和玩家控制器操作(详见“模型架构和数据”部分)。经过训练的模型精确捕捉到了游戏环境的三维结构(“模型评估”部分),控制器操作的影响以及游戏的时间结构。模型能够生成连贯的游戏情境,展现出其一致性和多样性,同时具有持续保留部分用户修改的能力。
在我们的模型开发和评估中,我们专注于以游戏画面和玩家操作的形式生成游戏玩法序列,因为这是视频游戏一种非常通用且广泛可访问的表示形式。我们建立在丰富的世界模型研究基础之上[39],该研究展示了循环神经网络[40]、循环状态空间模型[41]以及Transformer模型[42]在捕捉环境动力学方面的潜力,适用的场景包括2D视频游戏和道路交通[43]。在这些和相关研究[18,19,44,45,46,47]的基础上,我们深入探讨了这些模型在创意应用中的具体要求和能力,并展示了在复杂的3D视频游戏中,模型在时间上的稳定建模进展。
模型架构和数据
模型架构和数据
我们的建模选择反映了所识别的模型能力,如下所示。一致性需要一个序列模型,能够准确捕捉游戏画面与控制器操作之间的依赖关系。多样性需要一个能够生成数据的模型,这些数据能够保持视觉与控制器操作的序列的条件分布能够与训练集保持一致。最后,通过一个可以对(修改后的)图像和/或控制器操作进行条件预测的模型,实现了持久性。就这三个能力而言,我们选择了在大规模训练数据和计算资源上能够带来模型提升的组件,即具有扩展性。
我们开发的WHAM模型模拟了现代视频游戏的动态过程。通过对人类游戏数据进行训练,WHAM学习预测游戏画面(”帧”)和玩家控制器的操作(详见”模型架构和数据”部分)。经过训练的模型精确捕捉到了游戏环境的三维结构(”模型评估”部分),控制器操作的影响以及游戏的时间结构。模型能够生成连贯的游戏情境,展现出其一致性和多样性,同时具有持续保留部分用户修改的能力。

图2, WHAM概览
我们将人类游戏过程表示为交替的图像观察和控制器操作的离散Token序列。我们使用z_t表示所有编码观察o_t在时间步t的Token,并使用a_t表示控制器操作。 hat变量表示模型的预测。首先,我们使用VQGAN模型[51]将来自观察空间的图像标记化到一个紧凑的离散潜在空间:o_t∈R^{H×W×3}(其中H、W和3分别表示视频帧的高度、宽度和通道数),并将其映射到潜在空间z_t∈{1,2,…,V_O}^{d_z},其中V_O是词汇表大小,d_z是瓶颈大小。 然后训练一个因果Transformer[53]来预测潜在观察和离散化的操作Token。 VQGAN编码器/解码器可以通过重建损失和感知损失[61]来进行训练。 没有明确的分隔符用于区分下一个应该预测观察Token还是操作Token——模型必须从学习的位置嵌入中推断出来。
我们方法的一个关键之处在于将数据视为一系列离散的Token。为了将图像编码为Token序列,我们利用了一种VQGAN图像编码器[51]。每张图像编码所用的Token数量是一个关键的超参数,它在预测图像的质量、生成速度以及上下文长度之间进行权衡。对于Xbox控制器的操作,尽管按钮本身是离散的,但我们仍然将左摇杆和右摇杆的x和y坐标划分为11个区间[52]。随后,我们训练了一个仅包含解码器的Transformer[49,53],用于预测交替的图像和控制器操作序列中的下一个Token。
生成的模型可以通过自回归的方式采样下一个Token来创建新序列。我们还可以在生成过程中修改Token,从而实现对图像和/或操作的修改。这解锁了通过控制器操作或直接编辑图像本身来控制(或提示)生成的能力,这是持久性评估的先决条件。
为了展示该框架在捕捉现代视频游戏动力学方面的潜力,我们使用了一个包含大量真实人类游戏数据的数据集来训练WHAM模型。我们与游戏工作室Ninja Theory合作,聚焦在他们开发的游戏《Bleeding Edge》上,该游戏是一个3D的4v4的多人战斗视频游戏,我们从中获取并生成了人类如何游戏的视频数据。总共,我们从大约500,000个匿名化的游戏会话(相当于7年的连续游戏时间)中提取了数据,这些数据涵盖了《Bleeding Edge》所有七张地图。我们将这个数据集称为“7 Maps数据集”。我们还将该数据集进行过滤,使其仅包含Skygarden地图上一年的匿名化游戏数据,并将其称为Skygarden数据集。有关这些数据集的数据收集细节,请参见“方法”部分的“数据”节。
最大的WHAM模型采用了一个16亿参数的Transformer模型,具有1秒的上下文长度,并使用7 Maps数据集进行训练。在这种变体中,每张图像在其原生分辨率(300×180)下被编码为540个Token。我们还训练了一系列规模较小的WHAM模型:从1.5亿参数到89.4亿参数的Transformer,具有1秒的上下文长度不等,并使用Skygarden过滤数据集进行训练,在这些模型中,128×128的图像被编码为256个Token。有关建模选择和超参数的更多细节,请参见“建模选择和超参数”部分,而模型的可扩展性分析则可在“模型规模”部分找到,这两部分均位于“方法”章节。
模型评估
模型评估
我们提出了一个评估模型的方法,即从我们在用户研究中识别的三项能力(“评估模型能力”部分):一致性、多样性和持久性出发,以支持创意构思。我们使用这种方法来评估WHAM模型。“一致性”部分评估生成的游戏过程与游戏机制的一致性。“多样性”部分评估生成的游戏过程的多样性。最后,“持久性”部分探讨了用户的修改在生成结果中被保持的程度。
一致性
一致性确保了创意工作者能够有效地迭代并在生成序列的基础上进一步开发,因此对于迭代实践而言至关重要。在游戏语境中,这意味着生成的序列应与既定的游戏动力学保持一致,并始终连贯性地呈现,而不会出现角色或物体的突兀变化。例如,角色不应穿过墙壁,物体不应无故消失。
Fréchet 视频距离(FVD)是一种在机器学习领域中用于衡量生成视频一致性的成熟方法。FVD 旨在捕捉视频的时间动态和视觉质量,并且已被证明与人类对视频质量的判断具有相关性。在本研究中,我们将 FVD 应用于评估生成游戏的一致性,使用人类真实游戏数据作为基准。具体而言,我们使用 WHAM 模型生成视觉游戏,以包含视频和控制器操作的 1 秒真实游戏数据,以及人类玩家在接下来的 10 秒游戏过程中采取的控制器操作作为条件。生成的游戏序列与基准数据的接近程度由 FVD 分数衡量,分数越低,表明生成内容越接近真实数据。这种方法证明了模型准确捕捉了潜在游戏结构的能力。通过初步分析,我们验证了 FVD 分数与人类感知一致性的相关性。例如,研究表明 FVD 分数较低的情况下,人类对使用 8.94 亿参数的 WHAM 模型生成的内容的一致性评价更高。这些结果在《方法》一章中“一致性”部分及扩展数据图 3 中有详细说明。这种方法有效地评估了生成游戏的一致性,为评估 WHAM 模型的性能提供了重要依据。
图3a展示了FVD随计算能力(以浮点运算次数/FLOPS表示)在不同模型规模下的改进情况(详见扩展数据图2c),表明对于适当规模的模型,计算能力越大,FVD评分越高(见“方法”部分“模型规模”章节的讨论及其在扩展数据图2a,b中的对比结果)。此外,我们还观察到1.6B参数的WHAM模型在FVD评分上的提升,这得益于其采用了更高分辨率的图像。这是因为更高的分辨率显著提高了重构性能的上限,从而使得生成的图像能够更贴近真实数据。

图3. 一致性结果。a, 不同规模的WHAM模型在训练计算预算(以浮点运算次数/FLOPS表示)下的FVD评分趋势。随着模型规模和计算预算的增加,FVD评分逐步提升(越小越好)。b, 展示了1.6B WHAM生成的两组示例(每行一个示例,每个示例时长2分钟),关键帧显示该模型具备生成长期一致游戏过程的能力。
图3b展示了定性结果,表明1.6B的WHAM模型能够生成长达2分钟的高度一致的游戏序列。更多示例可以在扩展数据图4和补充视频1中找到。
多样性
为创意工作者提供多样化的选项被证明可以激发新想法,从而支持人类的创造性构思[21,55],而用户研究的参与者也强调了多样性的必要性(“发散思维”部分)。因此,支持人类创造力的生成式人工智能模型应能够生成可以反映不同潜在结果的范围更广的素材。由于可能性空间十分广阔[36](这其中涵盖了游戏机制、其他玩家,以及游戏中的随机性等),我们将评估的重点放在了模型能够捕捉人类玩家在行动多样性的能力上。如果模型在保持一致性的同时(如上所述,通过FVD单独衡量)能够生成这种多样性,那么生成的游戏序列将反映出人类合理游戏过程的完整多样性。
我们采用Wasserstein距离来评估多样性,这是一种用来衡量模型的行动是否捕捉到人类行动完整分布的指标[56]。我们比较了真实人类行动与模型生成行动的边际分布。Wasserstein距离越低,表示模型生成的结果越接近我们数据集中人类玩家的行动(更多细节请参见“多样性”部分)。
图4a展示了我们量化的结果。随着训练的进行,所有模型的Wasserstein距离均有所下降,逐渐接近人类间基线(计算方法为从人类行动序列中随机选取两个子集的平均距离)。尽管使用了更多的计算资源,但1.6B模型的表现略逊于894M模型。对此的一种假设是,1.6B模型使用了更多的图像标记(540个相比256个)以及更大的词汇表规模(16,384个相比4,096个),这两者都在一定程度上弱化了行动标记上的损失重量。为了验证这一假设,我们训练了另一个1.6B模型,仅对行动损失的权重增加了十倍(‘1.6B上加权’)。这种上加权的策略相较于标准的1.6B模型,改善了Wasserstein距离的表现。

图4 多样性结果,a, 三个WHAM变体的多样性(以Wasserstein距离衡量),即与人类行动的差异。在102,400个总行动数(1,024条轨迹,每条轨迹包含100个行动)中,我们采样了10,000个人类和模型行动,并计算它们之间的距离。这一过程重复了十次,并绘制了均值±1的标准差。越接近人类间基线越好。均匀随机行动的距离为5.3。所有模型在训练中均有所改善,并且通过增加行动损失的权重可以进一步提升性能。b, 从相同初始上下文中生成的1.6B WHAM的三个示例。我们可以看到行为上的多样性(玩家角色绕着刷新点打转 vs. 直接朝着加速板移动)和视觉上的多样性(玩家角色驾驶的悬浮板拥有不同的外观)。
持久性
持久性旨在赋予创意工作者对生成输出的控制权,从而实现迭代优化(“迭代实践”部分)。模型应足够灵活,以允许创意用户对游戏状态进行修改,并将这些更改融入生成的环境中。
为了评估WHAM的持久性,我们通过在游戏图像中手动插入三个不同元素之一来编辑游戏图像:(1)游戏内物体(一个“能量单元”);(2)另一名玩家(盟友或对手角色);以及(3)地图元素(一个“垂直加速板”)。我们将每个元素插入到八个合理但新建的游戏位置(如扩展数据图7a所示)。对于每个元素和位置,我们使用1.6B WHAM生成十张图像,即一段1秒的视频,条件设置为依赖于一个或五个已修改的图像。为了考虑模型输出的多样性,我们对每个修改后的图像重复生成步骤十次。随后,我们手动检查和标记每个元素是否在生成的视频中得以保持。图5展示了编辑过程和生成视频的示例。扩展数据图6展示了人类标记的成功和失败持久性示例。

图5:编辑过程及定性的持久性评估结果。成功的持久性的示例:能量单元、角色和垂直加速板。对于我们的持久性评估,WHAM的所有生成都基于无操作动作,因此玩家角色和相机不应该有移动。这些示例显示,插入的能量单元在整个1秒的生成过程中保持稳定,而插入的对手角色开始攻击玩家角色并造成了伤害。尽管垂直加速板被插入到现实游戏和我们的数据中从未出现的某个地图区域,但它在WHAM的所有生成中得以保持。
表1展示了成功持久的生成内容所占的比例。当WHAM模型的生成条件基于五张编辑后的图像时,其持久性显著提高,所有元素类型的成功持久率均达到85%及以上。更多详细分析和持久性示例可以在方法中的“持久性”部分找到。扩展数据图7b的左栏展示了按元素类型和起始位置的持久性的详细分析结果,而右栏则展示了起始位置的误差分析,其中持久性元素的延续性更具挑战性。补充视频1显示了包含与插入元素交互的生成游戏序列。

表1:定量的持久性分析结果。当WHAM基于一张用户编辑后的图像进行条件设置时,每个元素的持久性低于60%。然而,当基于五张用户编辑的图像进行条件设置时,每个元素的持久性显著提升至85%或以上(经过Bonferroni校正的二项检验,显著性水平为0.008)。
我们的实验结果表明,1.6B的WHAM能够在合理但全新的起始位置中持久显示插入的常见游戏元素。我们相信,这些示例展示了未来WHAM版本在创意应用中的潜力,可以将更多富有想象力的元素融入生成的序列中
WHAM展示器
WHAM展示器
为了说明WHAM在本研究中如何支持迭代实践和发散性思考,我们构建了一个概念原型[57],名为“WHAM演示器”。需要注意的是,概念原型并非完整的用户体验,而是对特定设计模式的探索。WHAM演示器提供了一个可视化界面,供用户与WHAM实例交互,包括多种与模型对话的方式。这种设计便于探索WHAM的能力,以及这些能力所支持的交互模式。为了促进创意探索和后续研究,我们公开提供了以下内容:训练好的模型(两种WHAM尺寸)、WHAM演示器,以及一个样本评估数据集(有关详细信息,请参阅“数据可用性”和“代码可用性”)。
补充视频1展示了关键功能。首先,视频展示了模型的各项功能。在一段训练过程中的案例研究中,我们展示了模型生成的一致性,即生成的游戏序列在时间上保持一致,并且能够涵盖广泛的游戏机制,这些能力随着训练的进展而提升(00:50–02:10)。多样性则体现在一组从相同初始出生点开始的游戏序列中,展示了角色在三个可用跳跃板之间的移动例子(02:11–02:50)。最后,持久性通过案例研究展示了角色和能量单元的持久性,这些结果与表1中的汇总数据相对应(02:51–03:42)。
我们在图1d和补充视频1(从03:43开始)中展示了WHAM演示器的功能。用户可以选择一组初始帧来“提示”模型[58],实现视觉而非语言的提示方式。WHAM随后会生成大量分支,展示了游戏可能的演变路径,这些多样化的选项支持发散性思考(“发散性思考”部分)。用户可以选择任何分支或帧重新开始生成下一帧,包括返回并修改之前的选择,以支持参与者提到的融合迭代(“迭代实践”部分)。为了实现迭代,用户可以修改任何生成的帧,例如通过添加对手角色(使用持久性)或提供控制器输入数据来影响后续生成的序列。用户可以不断调整和迭代,直到得到他们想要的“感觉”,同时保持对创作过程的控制。
结论
结论
随着我们不断探索对生成式人工智能在创意产业中的角色拓展,确保人工智能的开发朝着能够保障人类对创作过程主导地位的方向前进是至关重要的。通过与多元化的游戏创作人员进行的用户研究,我们识别出了三个关键的模型能力,这些能力包括:一致性、多样性和持久性,它们在通过迭代实践和发散性思考支持创意构思的人工智能系统开发中应优先考虑。我们还展示了当人工智能模型在适当的数据集上进行训练时,具备这些能力的可行性。
我们的研究为机器学习研究人员指明了不同于传统模型的创新路径,这些传统模型并非支持创造性思维而设计。首先,模型的评估不仅可以而且应该有目的地受到人类创意需求的指导,以确保创新朝着正确的方向发展。这与机器学习领域主要关注任务完成的有效性和效率形成了鲜明的对比,这种对有效性和效率的关注在支持流程效率的传统场景中通常是有用的。其次,旨在支持创造性的机器学习模型不太可能是独立的目标,而更应该是全面创造性工作流程中的重要组成部分。模型的开发必须融入这些工作流程中,用户修改内容并需要多次迭代的需求就是一个明显的例子。随着模型创新逐渐更全面地与创意工作者的需求相连接,有关计算创造力(computational creativity)和创造力支持(creativity support)的文献为这一领域提供了丰富的指导[7,25,26]。
WHAM展示的能力表明,现代生成式人工智能模型能够在无需先前领域知识的情况下,从相关数据中学习日益复杂的结构。我们证明,这类模型能够生成与3D世界中合适的游戏机制和物理一致的游戏游玩序列。鉴于WHAM完全从游戏游玩数据中学习了这些结构,而无需任何先验的领域知识,我们预计这些结果可以在广泛的现有游戏中得到复制,并最终推广到新的游戏和类型之中[18,32]。类似WHAM的生成式人工智能模型的关键创新在于,它们消除了对个体领域的手工制作或学习特定领域模型的需求,使得这类模型创新很可能将创造力支持拓展到音乐[59]或视频[60]等其他领域。通过对一个单一3D视频游戏的使用案例的推断,我们也可以对未来模型的强大潜力有一个初步的认识,这些模型将使人类创作者团队能够打造复杂的全新体验。
「AI时代的学习:共探学习的复杂性」主题读书会
在技术浪潮的冲击下,智能时代对人才培养的需求正发生根本性转变——学习已不再局限于简单的知识传递与记忆,当机器能够替代程式化技能,人类的创造力、批判性思维与跨界协作能力将成为核心竞争力;当知识更新周期以月甚至天为单位迭代,教育的使命不再是填鸭式灌输,而是培养终身学习者的自适应能力。
在此背景下,集智俱乐部联合江南大学教授王志军,北京师范大学教授崔光佐,翼鸥教育创始人宋军波,TalkingBrain 联合创始人林思恩,清华大学讲师方可,北京师范大学博士后郭玉娟,共同发起「AI时代的学习:共探学习的复杂性」主题读书会。希望通过汇聚教育学、系统科学、脑科学、计算机科学、社会学等多领域交叉视角,突破单一学科的局限,对人类社会未来学习发展形成更加全面深入的认识。
详情请见:AI时代的学习:共探人类学习的复杂性
6. 探索者计划 | 集智俱乐部2025内容团队招募(全职&兼职)