qq手機版排名優(yōu)化是怎么做的
一、介紹
????????如果強化學(xué)習(xí)代理提供的輸入在訓(xùn)練中未明確定義,則通常表現(xiàn)不佳。一種新方法使 RL 代理能夠正常運行,即使受到損壞、不完整或混亂的輸入的影響也是如此。
????????“大腦能夠使用來自皮膚的信息,就好像它來自眼睛一樣。我們不是用眼睛看,也不是用耳朵聽,這些只是受體,視覺和聽覺實際上是在大腦中進行的。
—?保羅·巴赫·麗塔?1
????????人們具有驚人的能力,可以使用一種感官模式(例如,觸覺)來提供通常由另一種感官(例如視覺)收集的環(huán)境信息。這種適應(yīng)能力稱為感覺替代,是神經(jīng)科學(xué)所熟知的現(xiàn)象。雖然困難的適應(yīng)——比如適應(yīng)顛倒看東西,學(xué)習(xí)騎“倒退”自行車,或者通過解釋從舌頭上的電極網(wǎng)格發(fā)出的視覺信息來學(xué)習(xí)“看”——需要數(shù)周、數(shù)月甚至數(shù)年才能掌握,但人們最終能夠適應(yīng)感官替代。
![]() |
????????相比之下,大多數(shù)神經(jīng)網(wǎng)絡(luò)根本無法適應(yīng)感覺替代。例如,大多數(shù)強化學(xué)習(xí)?(RL) 智能體要求其輸入采用預(yù)先指定的格式,否則它們將失敗。他們期望固定大小的輸入,并假設(shè)輸入的每個元素都具有精確的含義,例如指定位置的像素強度,或狀態(tài)信息,例如位置或速度。在流行的 RL 基準(zhǔn)測試任務(wù)(例如,Ant?或?Cart-pole)中,如果使用當(dāng)前?RL 算法訓(xùn)練的智能體的感官輸入發(fā)生變化,或者如果智能體被饋送到與手頭任務(wù)無關(guān)的額外噪聲輸入,則該智能體將失敗。
????????在?NeurIPS 2021?的焦點論文《作為轉(zhuǎn)換器的感覺神經(jīng)元:用于強化學(xué)習(xí)的排列不變神經(jīng)網(wǎng)絡(luò)》中,我們探討了排列不變神經(jīng)網(wǎng)絡(luò)代理,它要求它們的每個感覺神經(jīng)元(從環(huán)境中接收感覺輸入的受體)弄清楚其輸入信號的含義和上下文,而不是明確假設(shè)固定的含義。我們的實驗表明,這些智能體對包含額外冗余或噪聲信息的觀測值以及損壞和不完整的觀測值具有魯棒性。

? ?
????????除了適應(yīng)狀態(tài)觀察環(huán)境中的感官替換(如螞蟻和推車桿示例)之外,我們還表明,這些智能體還可以適應(yīng)復(fù)雜視覺觀察環(huán)境中的感官替換(例如僅使用像素觀察的賽車游戲),并且可以在輸入圖像流不斷重新洗牌時執(zhí)行:
我們將來自 CarRacing 的視覺輸入劃分為一個由小塊組成的 2D 網(wǎng)格,并重新排列它們的順序(左)。無需任何額外訓(xùn)練,即使原始訓(xùn)練背景被新圖像替換,我們的智能體仍然有效(右)。
二、方法
????????我們的方法在每個時間步長從環(huán)境中獲取觀察結(jié)果,并將觀察的每個元素輸入到不同但相同的神經(jīng)網(wǎng)絡(luò)(稱為“感覺神經(jīng)元”)中,每個神經(jīng)網(wǎng)絡(luò)彼此之間沒有固定的關(guān)系。隨著時間的流逝,每個感覺神經(jīng)元僅整合來自其特定感覺輸入通道的信息。由于每個感覺神經(jīng)元只接收到全貌的一小部分,因此它們需要通過通信進行自組織,以便出現(xiàn)全局連貫的行為。
?????????觀察點分割的圖示。我們將每個輸入分割成元素,然后將其饋送到獨立的感覺神經(jīng)元。對于輸入通常是一維向量的非視覺任務(wù),每個元素都是一個標(biāo)量。對于視覺任務(wù),我們將每個輸入圖像裁剪成不重疊的斑塊。
????????我們鼓勵神經(jīng)元通過訓(xùn)練它們廣播信息來相互交流。在本地接收信息的同時,每個單獨的感覺神經(jīng)元也在每個時間步連續(xù)廣播輸出信息。這些消息被合并并組合成一個輸出向量,稱為全局潛在代碼,使用類似于?Transformer?架構(gòu)中應(yīng)用的注意力機制。然后,策略網(wǎng)絡(luò)使用全局潛在代碼來生成代理將用于與環(huán)境交互的操作。這個動作也會在下一個時間步長反饋到每個感覺神經(jīng)元中,從而關(guān)閉通信循環(huán)。
?????????置換不變RL方法概述。我們首先為每個單獨的觀察結(jié)果(ot)進入特定的感覺神經(jīng)元(連同智能體先前的動作,一個T-1型).然后,每個神經(jīng)元獨立地產(chǎn)生和廣播一條消息,注意力機制將它們匯總成一個全局潛在代碼(mt),該網(wǎng)絡(luò)提供給代理的下游策略網(wǎng)絡(luò) (π) 以生成代理的操作 at.
????????為什么這個系統(tǒng)排列是不變的?每個感覺神經(jīng)元都是一個相同的神經(jīng)網(wǎng)絡(luò),不僅限于處理來自一個特定感覺輸入的信息。事實上,在我們的設(shè)置中,每個感覺神經(jīng)元的輸入都沒有定義。相反,每個神經(jīng)元必須通過關(guān)注其他感覺神經(jīng)元接收到的輸入來弄清楚其輸入信號的含義,而不是明確地假設(shè)一個固定的含義。這鼓勵智能體將整個輸入作為無序集合進行處理,使系統(tǒng)對其輸入的排列不變。
????????我們使用的特定注意力形式已被證明適用于無序集合。由于我們的系統(tǒng)將輸入視為無序集合,而不是有序列表,因此輸出不會受到感覺神經(jīng)元的排序(以及觀察的順序)的影響,從而獲得排列不變性(我們的論文包括關(guān)于注意力的排列不變性的直觀解釋,供希望更深入的感興趣的讀者使用)。通過將輸入處理為無序集合,而不是固定大小的列表,智能體可以根據(jù)需要使用任意數(shù)量的感覺神經(jīng)元,從而使其能夠處理任意長度的觀察結(jié)果。這兩個特性都將幫助智能體適應(yīng)感官替代。
三、結(jié)果
????????我們在更簡單的狀態(tài)觀察環(huán)境中證明了這種方法的魯棒性和靈活性,其中智能體作為輸入接收的觀察是低維向量,其中包含有關(guān)智能體狀態(tài)的信息,例如其組件的位置或速度。流行的?Ant?運動任務(wù)中的智能體共有 28 個輸入,其中包含包括位置和速度在內(nèi)的信息。在試驗過程中,我們多次對輸入向量的順序進行洗牌,并表明智能體能夠快速適應(yīng)并且仍然能夠向前走。
????????在推車桿中,代理的目標(biāo)是擺動安裝在推車中心的推桿并使其保持平衡。通常,智能體只能看到 5 個輸入,但我們修改了 cartpole 環(huán)境以提供 15 個隨機輸入信號,其中 10 個是純噪聲,其余是來自環(huán)境的實際觀察結(jié)果。代理仍然能夠執(zhí)行任務(wù),這表明系統(tǒng)能夠處理大量輸入并僅處理它認(rèn)為有用的通道。這種靈活性可能有助于處理來自定義不明確的系統(tǒng)的大量未指定數(shù)量的信號,其中大部分是噪聲。
????????我們還將這種方法應(yīng)用于基于視覺的高維環(huán)境,其中觀察是像素圖像流。在這里,我們研究了基于視覺的強化學(xué)習(xí)環(huán)境的屏幕洗牌版本,其中每個觀察幀都被劃分為一個補丁網(wǎng)格,就像一個拼圖一樣,代理必須按洗牌順序處理補丁,以確定要采取的行動方案。為了展示我們基于視覺的任務(wù)方法,我們創(chuàng)建了一個隨機版的Atari Pong。
洗牌的乒乓球結(jié)果。左圖:受過訓(xùn)練的乒乓球特工只使用30%的補丁,與雅達利對手的表現(xiàn)相匹配。右圖:在沒有額外訓(xùn)練的情況下,當(dāng)我們給智能體更多的拼圖時,它的性能就會提高。
????????在這里,代理的輸入是一個可變長度的補丁列表,因此與典型的 RL 代理不同,代理只能從屏幕上“看到”補丁的子集。在拼圖乒乓球?qū)嶒炛?#xff0c;我們在屏幕上隨機抽取補丁給代理,然后在游戲的其余部分修復(fù)這些補丁。我們發(fā)現(xiàn)我們可以丟棄70%的補丁(在這些固定的隨機位置),并且仍然訓(xùn)練代理在對抗內(nèi)置的Atari對手時表現(xiàn)良好。有趣的是,如果我們隨后向代理透露額外的信息(例如,允許它訪問更多的圖像補丁),即使沒有額外的訓(xùn)練,它的性能也會提高。當(dāng)代理收到所有補丁時,按隨機順序,它會在 100% 的時間內(nèi)獲勝,與在查看整個屏幕時接受訓(xùn)練的代理實現(xiàn)相同的結(jié)果。
????????我們發(fā)現(xiàn),通過使用無序觀察在訓(xùn)練過程中施加額外的難度具有額外的好處,例如提高對任務(wù)看不見的變化的泛化,例如當(dāng)賽車訓(xùn)練環(huán)境的背景被新穎的圖像替換時。為了理解為什么智能體能夠泛化到新的背景,我們可視化智能體正在關(guān)注的(隨機)屏幕的補丁。我們發(fā)現(xiàn),觀察中缺乏固定結(jié)構(gòu)似乎鼓勵智能體學(xué)習(xí)環(huán)境中的基本結(jié)構(gòu)(例如,道路邊緣)以最好地執(zhí)行其任務(wù)。我們看到,這些注意力屬性也會轉(zhuǎn)移到測試環(huán)境中,幫助代理將其策略推廣到新的背景。
洗牌的 CarRacing 結(jié)果。智能體已經(jīng)學(xué)會了將注意力(由突出顯示的補丁指示)集中在道路邊界上。左圖:訓(xùn)練環(huán)境。右圖:具有新背景的測試環(huán)境。
四、結(jié)論
????????這里介紹的排列不變神經(jīng)網(wǎng)絡(luò)代理可以處理定義不清、變化的觀察空間。我們的代理對包含冗余或嘈雜信息的觀察結(jié)果或損壞和不完整的觀察結(jié)果非常可靠。我們相信,置換不變系統(tǒng)為強化學(xué)習(xí)開辟了許多可能性。
????????如果您有興趣了解有關(guān)這項工作的更多信息,我們邀請讀者閱讀我們的互動文章(pdf?版本)或觀看我們的視頻。我們還發(fā)布了代碼來重現(xiàn)我們的實驗。
參考資料:
archive | 大トロ (otoro.net)