中國(guó)文化網(wǎng)站建設(shè)策劃書(shū)網(wǎng)絡(luò)優(yōu)化
參考論文:https://arxiv.org/abs/2403.10249
在傳統(tǒng)游戲中,NPC(非玩家角色)的行為往往是預(yù)先設(shè)定好的,缺乏靈活性和變化性。然而,基于大模型的NPC可以利用其強(qiáng)大的推理和學(xué)習(xí)能力,實(shí)時(shí)生成對(duì)話和行為,使其看起來(lái)更加真實(shí)和多樣化。
隨著大模型技術(shù)不斷進(jìn)步,它們?cè)谟螒蛑械膽?yīng)用變得越來(lái)越廣泛和深遠(yuǎn)。從簡(jiǎn)單的角色對(duì)話到復(fù)雜的游戲策略,這些模型正在逐步改變我們對(duì)游戲的理解和體驗(yàn)。本文將從技術(shù)層面深入探討大模型如何應(yīng)用到游戲中。
人類是如何玩游戲的?
在思考如何讓大模型玩游戲之前,讓我們先來(lái)想一想人類是如何玩游戲的。
在游戲的過(guò)程中,人類大腦首先將感官信息轉(zhuǎn)化為對(duì)游戲世界的感知表征,接著利用這些表征構(gòu)建關(guān)于游戲環(huán)境的知識(shí),并基于這些知識(shí)做出推理,最后通過(guò)行動(dòng)來(lái)實(shí)現(xiàn)游戲中的操作。這一系列步驟可以概括為感知、推理和行動(dòng)的循環(huán)過(guò)程。
下面我們以經(jīng)典的游戲《塞爾達(dá)傳說(shuō):曠野之息》為例,看看這個(gè)過(guò)程是如何展開(kāi)的。
感知:解析游戲世界
在《曠野之息》中,玩家首先需要通過(guò)視覺(jué)、聽(tīng)覺(jué)等感官信息來(lái)感知周?chē)挠螒颦h(huán)境。例如,玩家注意到敵人的位置、道具的分布,以及環(huán)境中的天氣變化。這些信息會(huì)被大腦處理,轉(zhuǎn)化為對(duì)游戲世界的理解。早期的游戲可能只要求玩家理解文本指令,而如今,游戲已經(jīng)發(fā)展到需要玩家同時(shí)處理多模態(tài)信息,比如理解風(fēng)向?qū)杠壽E的影響,或是辨別不同敵人的攻擊模式。
推理:制定最佳策略
推理的過(guò)程涉及多個(gè)步驟,包括記憶、學(xué)習(xí)、推理、反思和決策。例如,玩家需要記住之前遇到的敵人行為模式,學(xué)習(xí)如何有效地避開(kāi)攻擊或?qū)ふ胰觞c(diǎn)。推理則幫助玩家在面對(duì)復(fù)雜情況時(shí)做出最佳決策,比如在敵人圍攻時(shí),玩家可能會(huì)評(píng)估使用炸彈、劍攻擊還是躲避的最佳時(shí)機(jī)。而這些推理往往不是單線的,而是多跳推理——玩家需要同時(shí)考慮敵人的位置、自己的生命值、環(huán)境因素等多個(gè)變量,才能制定出最佳的戰(zhàn)斗策略。
行動(dòng):執(zhí)行與反饋循環(huán)
在推理之后,玩家會(huì)根據(jù)自己的判斷采取行動(dòng),比如決定用劍擊打敵人、在懸崖邊使用滑翔傘逃脫,或者在寒冷的山峰穿上御寒衣物。在《曠野之息》中,行動(dòng)的反饋直接影響玩家的下一步?jīng)Q策,比如敵人的反擊、天氣變化或是玩家體力的消耗,都需要玩家及時(shí)調(diào)整策略。
AI大模型如何玩游戲?
在理解了人類如何玩游戲之后,我們來(lái)探討一下AI大模型是如何玩游戲的。AI大模型的游戲過(guò)程同樣可以抽象為agent智能體的迭代過(guò)程:感知、推理和行動(dòng)。
多模態(tài)感知:游戲世界更為沉浸
多模態(tài)感知是游戲大模型理解和互動(dòng)的核心能力之一,它通過(guò)整合不同類型的信息(如視覺(jué)、語(yǔ)義和音頻)來(lái)構(gòu)建更具沉浸感的游戲體驗(yàn)。
- 語(yǔ)義感知
語(yǔ)義感知主要涉及對(duì)游戲文本元素的理解,如自然語(yǔ)言指令和對(duì)話。玩家通過(guò)解讀這些文本信息來(lái)了解游戲中的環(huán)境、角色和事件,從而做出相應(yīng)的決策。
語(yǔ)義感知可以進(jìn)一步細(xì)分為以下幾類:
- 簡(jiǎn)單文本輸入:包括用戶的簡(jiǎn)單描述、游戲狀態(tài)和角色對(duì)話。
- 結(jié)構(gòu)化或角色輸入:涉及角色屬性、故事背景及技能信息。
- 環(huán)境和上下文輸入:指詳細(xì)的游戲描述及任務(wù)指令,這些信息幫助玩家理解當(dāng)前場(chǎng)景。
- 多模態(tài)輸入:整合視覺(jué)、聽(tīng)覺(jué)和文本數(shù)據(jù)來(lái)做出更復(fù)雜的決策,并實(shí)現(xiàn)豐富的互動(dòng)。
- 視覺(jué)感知
視覺(jué)感知是大模型處理游戲中圖像信息的能力。然而,僅依賴將視覺(jué)數(shù)據(jù)轉(zhuǎn)化為文本可能會(huì)導(dǎo)致重要信息的丟失,從而影響大模型NPC在游戲中的表現(xiàn)。
為了提升視覺(jué)感知能力,使用多模態(tài)大語(yǔ)言模型(MLLMs)是一種有效的方法。MLLMs能夠整合視覺(jué)與其他感官數(shù)據(jù),提升大模型NPC對(duì)游戲世界的理解和決策能力。
復(fù)雜推理與決策:NPC變得更“聰明”
在AI大模型游戲中,NPC的智能化體現(xiàn)在其復(fù)雜的推理與決策能力上。為了實(shí)現(xiàn)這一點(diǎn),大模型模型需要具備知識(shí)存儲(chǔ)和檢索、進(jìn)行推理和做出決策的綜合能力。
- 知識(shí)存儲(chǔ)和檢索
為了正確地表示學(xué)習(xí)到的知識(shí)或過(guò)去事件,并在推理中使用這些信息,一個(gè)NPC需要有效地操作這些"記憶”。這就要求對(duì)游戲大模型設(shè)計(jì)一種高質(zhì)量的記憶機(jī)制,使NPC能夠有效存儲(chǔ)和檢索記憶。
例如,如果一個(gè)模型被用于模擬護(hù)士NPC的角色,大模型應(yīng)了解包含醫(yī)療常識(shí)、病人交流的指南,以及診斷和治療的標(biāo)準(zhǔn)流程。這使得模型能夠在模擬或?qū)嶋H情境中更加有效和適應(yīng)性地行動(dòng)。
然而,這些知識(shí)可能不總是與特定的游戲場(chǎng)景等應(yīng)用情境完全一致。因此,當(dāng)前的研究旨在通過(guò)以下方式增強(qiáng)語(yǔ)言模型的常識(shí)性理解:
- 通過(guò)指令微調(diào)將結(jié)構(gòu)化的知識(shí)嵌入。
- 使用SOP將常識(shí)集成到特定的角色和任務(wù)中。
- 使用RAG(檢索增強(qiáng)生成)。
- 將詳細(xì)的角色資料通過(guò)prompt輸入大模型中。
- 使用知識(shí)圖譜用于描述實(shí)體之間的關(guān)系。
- 進(jìn)行推理和做出決策
大模型NPC的學(xué)習(xí)推理過(guò)程包括解釋和整合各種來(lái)源的信息,以適應(yīng)新的游戲場(chǎng)景。學(xué)習(xí)可以是顯式的,通過(guò)特定數(shù)據(jù)集進(jìn)行微調(diào);也可以是隱式的,通過(guò)利用現(xiàn)有知識(shí)適應(yīng)新情況。結(jié)合反饋和強(qiáng)化學(xué)習(xí),大模型NPC能夠通過(guò)環(huán)境交互優(yōu)化行為,從而更好地適應(yīng)游戲世界。
在復(fù)雜的游戲環(huán)境中,大模型NPC需要做出多層次的決策,這通常包括多跳推理和長(zhǎng)期規(guī)劃。多跳推理要求大模型NPC在做出決策前考慮多層信息和依賴關(guān)系,例如預(yù)測(cè)對(duì)手的動(dòng)作并評(píng)估各種行動(dòng)的潛在結(jié)果。長(zhǎng)期規(guī)劃則涉及設(shè)定長(zhǎng)期目標(biāo),并通過(guò)一系列策略行動(dòng)來(lái)實(shí)現(xiàn)這些目標(biāo)。
持續(xù)行動(dòng)與反思:NPC越來(lái)越“人類”
在游戲中,大模型NPC不僅需要做出即時(shí)的反應(yīng),還要能夠持續(xù)行動(dòng)和反思,以應(yīng)對(duì)復(fù)雜的游戲環(huán)境,NPC的行為變得更加智能和人性化。
- 行動(dòng)
在游戲中,NPC的行動(dòng)空間可以分為三種類型:
- 基于文本互動(dòng):NPC通過(guò)文本與玩家或環(huán)境進(jìn)行互動(dòng),解釋和響應(yīng)玩家的輸入。
- 使用API互動(dòng):通過(guò)API,NPC能夠獲取或發(fā)送信息,控制游戲中的各種元素。
- 通過(guò)IO操作直接控制:例如使用鍵盤(pán)、鼠標(biāo)等設(shè)備,直接影響游戲中的行為和操作。
- 反思
反思是指NPC評(píng)估和調(diào)整自身行為的能力。通過(guò)利用外部反饋和不斷優(yōu)化計(jì)劃,NPC能夠在游戲過(guò)程中不斷改進(jìn)。特別是在多智能體系統(tǒng)中,NPC需要與其他角色協(xié)作,重新評(píng)估和調(diào)整其決策,以更好地適應(yīng)游戲環(huán)境。
通過(guò)持續(xù)行動(dòng)與反思,NPC變得越來(lái)越接近人類,使游戲體驗(yàn)更為真實(shí)和動(dòng)態(tài)。
大模型游戲未來(lái)展望
隨著生成式AI和大模型的快速崛起,我們離NPC與游戲世界深度互動(dòng)的夢(mèng)想越來(lái)越近?!妒Э赝婕摇分?#xff0c;NPC逐漸覺(jué)醒,擁有了自主意識(shí)和情感的設(shè)定,為我們描繪了一個(gè)充滿可能性的未來(lái)。雖然目前的技術(shù)還存在許多需要改進(jìn)的地方,但通過(guò)引入能夠理解和響應(yīng)玩家的AI大模型,游戲世界將不再是單純的虛擬場(chǎng)景,而是一個(gè)有感知、有情感的交互空間。
展望未來(lái),AI大模型或許會(huì)徹底改變游戲產(chǎn)業(yè)的格局。它不僅為游戲創(chuàng)造帶來(lái)了全新的可能性,還可能重新定義游戲與玩家之間的關(guān)系。在不久的將來(lái),我們可能會(huì)看到一個(gè)更加智能化、更加人性化的游戲世界,在這個(gè)世界里,玩家不再是孤獨(dú)的冒險(xiǎn)者,而是與“有靈魂”的NPC共同編織夢(mèng)境的創(chuàng)作者。