濟(jì)南做網(wǎng)站優(yōu)化網(wǎng)站制作方案
?盡管LLMs如ChatGPT在撰寫電子郵件等任務(wù)上能夠提供幫助,它們?cè)诶斫夂团cGUIs交互方面存在挑戰(zhàn),這限制了它們?cè)谔岣咦詣?dòng)化水平方面的潛力。數(shù)字世界中的自主代理是許多現(xiàn)代人夢(mèng)寐以求的理想助手。這些代理能夠根據(jù)用戶輸入的任務(wù)描述自動(dòng)完成如在線預(yù)訂票務(wù)、進(jìn)行網(wǎng)絡(luò)搜索、管理文件和創(chuàng)建PowerPoint演示文稿等任務(wù)。然而,目前基于純語言的代理在真實(shí)場(chǎng)景中的潛力相當(dāng)有限,因?yàn)榇蠖鄶?shù)應(yīng)用程序通過GUI與人交互,而GUI通常缺乏標(biāo)準(zhǔn)的API進(jìn)行交互,且重要信息(包括圖標(biāo)、圖像、圖表和空間關(guān)系)難以直接用文字表達(dá)。
為了克服這些限制,研究者們提出了基于視覺語言模型(Visual Language Models,簡(jiǎn)稱VLMs)的代理。與僅依賴文本輸入(如HTML或OCR結(jié)果)不同,基于VLM的代理可以直接感知視覺GUI信號(hào)。由于GUI是為人類用戶設(shè)計(jì)的,只要VLM達(dá)到人類級(jí)別的視覺理解能力,基于VLM的代理就能像人類一樣有效地執(zhí)行任務(wù)。此外,VLM還能夠執(zhí)行如極快速閱讀和編程等通常超出大多數(shù)人類用戶能力范圍的技能,這擴(kuò)展了基于VLM的代理的潛力。
CogAgent,是一個(gè)專門用于GUI理解和導(dǎo)航的18億參數(shù)的視覺語言模型(VLM)。專為理解和導(dǎo)航圖形用戶界面(GUI)而設(shè)計(jì)。
- 參數(shù)規(guī)模:CogAgent擁有18億參數(shù),這使得它能夠捕捉和學(xué)習(xí)復(fù)雜的視覺和語言特征,從而更準(zhǔn)確地理解和解釋GUI元素。
- 雙分辨率圖像編碼器:
- 低分辨率圖像編碼器:用于處理較小尺寸的圖像(例如224×224像素),這有助于模型快速捕捉圖像的基本布局和對(duì)象。
- 高分辨率圖像編碼器:設(shè)計(jì)用于處理高達(dá)1120×1120分辨率的圖像,這使得模型能夠識(shí)別和理解細(xì)小的GUI元素,如小圖標(biāo)、文本和復(fù)雜的圖表。
- 輸入分辨率:支持高分辨率輸入是CogAgent的關(guān)鍵特性之一。高分辨率圖像使得模型能夠更好地解析GUI中的細(xì)微視覺細(xì)節(jié),這對(duì)于執(zhí)行精確的GUI任務(wù)至關(guān)重要。
- 視覺和語言的整合:CogAgent通過視覺語言解碼器將視覺特征與文本特征結(jié)合起來,這使得模型不僅能夠識(shí)別圖像內(nèi)容,還能夠理解與圖像內(nèi)容相關(guān)的語言上下文。
- 交叉注意力機(jī)制:CogAgent采用了交叉注意力(cross-attention)機(jī)制,這是一種神經(jīng)網(wǎng)絡(luò)技術(shù),允許模型在處理視覺信息時(shí)同時(shí)考慮相關(guān)的語言信息,反之亦然。
- 計(jì)算效率:為了處理高分辨率圖像帶來的計(jì)算挑戰(zhàn),CogAgent設(shè)計(jì)了一個(gè)高分辨率交叉模塊,它通過減小隱藏層的大小和使用跨注意力機(jī)制來降低計(jì)算成本。
對(duì)CogAgent預(yù)訓(xùn)練和微調(diào)過程如下:
- 預(yù)訓(xùn)練階段:
- CogAgent的預(yù)訓(xùn)練階段專注于構(gòu)建一個(gè)能夠理解圖形用戶界面(GUI)的模型。為此,研究者們收集了大規(guī)模的GUI圖像和光學(xué)字符識(shí)別(OCR)數(shù)據(jù)集。
- 預(yù)訓(xùn)練數(shù)據(jù)集包含了合成渲染的文本圖像、自然場(chǎng)景中的文本圖像以及學(xué)術(shù)文檔等,這些數(shù)據(jù)通過不同的圖像增強(qiáng)技術(shù)進(jìn)行預(yù)處理,以提高模型對(duì)文本的識(shí)別能力。
- 此外,預(yù)訓(xùn)練還包括視覺定位任務(wù),即模型需要識(shí)別圖像中的文本和對(duì)象,并理解它們之間的關(guān)系,這對(duì)于理解GUI結(jié)構(gòu)至關(guān)重要。
- 預(yù)訓(xùn)練的目的是讓模型掌握對(duì)各種尺寸、方向和字體的文本的識(shí)別能力,以及對(duì)圖像中對(duì)象的定位能力,從而為后續(xù)的微調(diào)階段打下堅(jiān)實(shí)的基礎(chǔ)。
- 微調(diào)階段:
- 微調(diào)是對(duì)預(yù)訓(xùn)練模型進(jìn)行的進(jìn)一步訓(xùn)練,目的是讓模型更好地適應(yīng)特定的任務(wù)。在CogAgent的情況下,微調(diào)涉及將模型應(yīng)用于具體的GUI任務(wù),如網(wǎng)頁瀏覽、應(yīng)用操作等。
- 微調(diào)數(shù)據(jù)集包含了從真實(shí)世界的智能手機(jī)和電腦應(yīng)用中收集的截圖,這些截圖被人工標(biāo)注了潛在的任務(wù)和操作方法。
- 通過微調(diào),CogAgent能夠?qū)W習(xí)到如何根據(jù)給定的任務(wù)描述和歷史操作來預(yù)測(cè)用戶界面中的下一個(gè)動(dòng)作,例如點(diǎn)擊某個(gè)按鈕或輸入文本。
- 微調(diào)過程不凍結(jié)模型的所有參數(shù),而是允許它們根據(jù)特定任務(wù)的數(shù)據(jù)進(jìn)行更新,從而使模型的性能在這些任務(wù)上得到優(yōu)化。
為了全面評(píng)估CogAgent的性能,研究者們?cè)诙鄠€(gè)視覺問答(VQA)基準(zhǔn)測(cè)試中對(duì)其進(jìn)行了測(cè)試。這些測(cè)試覆蓋了通用VQA和文本豐富的VQA兩大類,旨在衡量模型在處理視覺場(chǎng)景中嵌入文本的圖像上的能力。CogAgent在包括VQAv2、OK-VQA、TextVQA、ST-VQA、ChartQA、InfoVQA和DocVQA在內(nèi)的八個(gè)VQA基準(zhǔn)測(cè)試中進(jìn)行了評(píng)估。結(jié)果顯示,CogAgent在通用VQA類別的兩個(gè)數(shù)據(jù)集上均達(dá)到了最先進(jìn)的一般性結(jié)果,同時(shí)在文本豐富的VQA類別中的五個(gè)基準(zhǔn)測(cè)試中的四個(gè)上取得了最佳成績(jī),顯著超過了其他一般性模型,并且在某些情況下甚至超過了特定任務(wù)的模型。
CogAgent在零樣本測(cè)試中也展現(xiàn)了卓越的性能。在MM-Vet和POPE數(shù)據(jù)集上,CogAgent在處理復(fù)雜任務(wù)和抵抗幻覺方面的表現(xiàn)超過了其他現(xiàn)有模型。在MM-Vet數(shù)據(jù)集上,CogAgent的得分為52.8,比最接近的競(jìng)爭(zhēng)對(duì)手LLaVA-1.5高出16.5分。在POPE數(shù)據(jù)集的對(duì)抗性評(píng)估中,CogAgent獲得了85.9分,顯示出其在處理幻覺方面的優(yōu)越能力。
在GUI導(dǎo)航任務(wù)上,CogAgent在Mind2Web和AITW數(shù)據(jù)集上的表現(xiàn)尤為突出。Mind2Web是一個(gè)針對(duì)Web代理的數(shù)據(jù)集,包含來自不同網(wǎng)站的2000多個(gè)任務(wù)。CogAgent在跨網(wǎng)站、跨域和跨任務(wù)的測(cè)試子集上均取得了顯著的性能提升,超過了LLaMA2-70B模型。在AITW數(shù)據(jù)集上,CogAgent在預(yù)測(cè)Android設(shè)備上的用戶行為方面也取得了最先進(jìn)的性能,這表明CogAgent能夠有效地理解和操作智能手機(jī)界面。
在Mind2Web數(shù)據(jù)集上評(píng)估了CogAgent,這是一個(gè)針對(duì)Web代理的數(shù)據(jù)集,包含來自137個(gè)真實(shí)世界網(wǎng)站的2000多個(gè)開放式任務(wù)。
CogAgent在跨網(wǎng)站、跨域和跨任務(wù)的三個(gè)子集上均取得了顯著的性能提升,超過了LLaMA2-70B模型11.6%、4.7%和6.6%。
使用Android in the Wild (AITW)數(shù)據(jù)集評(píng)估了模型在多樣化的智能手機(jī)界面和任務(wù)上的性能,這是一個(gè)包含715k操作集數(shù)的大型數(shù)據(jù)集。
CogAgent在所有測(cè)試集上均取得了最先進(jìn)的性能,與基于語言的方法相比,模型在整體性能上提高了2.61%。
CogAgent的模型和代碼將被開源,以促進(jìn)基于VLM的AI代理的未來研究和應(yīng)用。基于VLM的代理通過其視覺和語言的綜合處理能力,為與GUI的自然交互提供了新的可能性,并且在自動(dòng)化和增強(qiáng)人機(jī)交互體驗(yàn)方面展現(xiàn)出巨大的潛力。
論文鏈接:
https://arxiv.org/pdf/2312.08914.pdf
GitHub項(xiàng)目地址(含開源模型、網(wǎng)頁版Demo):
https://github.com/THUDM/CogVLM