公司網(wǎng)站公眾號維護(hù)怎么做網(wǎng)站聯(lián)盟推廣
兩個觀察
圖1所示。各種基于transformer的CLIP模型中不同層的數(shù)據(jù)集級識別精度。這個實(shí)驗(yàn)是為了確定樣本屬于哪個數(shù)據(jù)集。我們用不同的種子運(yùn)行了三次,并報(bào)告了每層識別精度的平均值和標(biāo)準(zhǔn)差。 X E m b e d XEmbed XEmbed是指變壓器塊之前的文本或圖像嵌入層(即自關(guān)注層和前饋層[13]), X P r o j XProj XProj是指文本或圖像投影層。注意,本實(shí)驗(yàn)僅使用來自所有數(shù)據(jù)集的訓(xùn)練樣例進(jìn)行評估。
如圖1所示,我們有兩個觀測:
Observation-1。在預(yù)訓(xùn)練的文本和圖像編碼器中,較高的層包含可區(qū)分的數(shù)據(jù)集特定表示,而較低的層包含跨不同數(shù)據(jù)集的可通用表示。這些結(jié)果表明,為下游任務(wù)調(diào)整高層比低層更容易,凍結(jié)低層比高層可以保存更多的可泛化知識。
Observation-2。在大多數(shù)情況下,文本特征,因?yàn)樗鼈兪怯谜Z義類別名稱編碼的,在數(shù)據(jù)集中比視覺特征更容易區(qū)分。此外,低層的文本和圖像特征之間的間隙比高層的更大。因此,我們認(rèn)為在文本和圖像特征之間對齊較低的層比在較高的層之間對齊更困難,特別是在有限的訓(xùn)練樣本下進(jìn)行調(diào)優(yōu)。
Macro Design(宏觀的設(shè)計(jì))
新的適配器 A \mathcal{A} A(在下一節(jié)中詳細(xì)介紹)被部分添加到圖像和文本編碼器的幾個更高層中。形式上,對于圖像編碼器 V \mathcal{V} V,我們從第 k k k個transformer塊中添加適配器 A v \mathcal{A}^v Av
這里,下劃線表示可訓(xùn)練的塊。 α \alpha α是任務(wù)特定知識和一般預(yù)訓(xùn)練知識之間的平衡系數(shù)。顯然, α = 0 \alpha=0 α=0在不集成任何額外知識的情況下退化為原始transformer塊。同樣,我們在文本編碼器 τ \tau τ上增加適配器 A t \mathcal{A}^t At
Micro Design(微觀設(shè)計(jì))
該單元首先使用單獨(dú)的投影層將每個分支輸入投影到具有相同尺寸的特征中。然后,使用一個共享投影層來聚合這些雙峰信號,然后使用一個單獨(dú)的層來匹配每個分支的輸出維度。形式上,這個過程可以概括如下:
一個類似的過程被添加到文本編碼器如下:
其中, W k w \bm W_{kw} Wkw?和 W k d \bm W_{kd} Wkd?是圖所示的第 k k k個“上”和“下”投影層,其中模態(tài)分支用上標(biāo)突出顯示。 W k s \bm W_{ks} Wks?是第 k k k個投影層,由Eq.(11)和Eq.(12)中的不同分支共享。重要的是,共享投影作為兩個模態(tài)之間的橋梁,允許梯度相互傳播,從而更好地對齊不同的模態(tài)信號。
實(shí)驗(yàn)
me:簡單的改動,但效果真的很好啊。
結(jié)論
以CLIP為例[50]的大規(guī)模VLM對下游任務(wù)的適應(yīng)提出了一個巨大的挑戰(zhàn),主要是因?yàn)榭捎?xùn)練參數(shù)的數(shù)量龐大,而可用訓(xùn)練樣本的規(guī)模有限。在本文中,我們提出了一種針對視覺和語言分支設(shè)計(jì)的多模態(tài)適配器(MMA),以增強(qiáng)其各自表示之間的一致性。我們系統(tǒng)地分析了視覺和語言分支跨數(shù)據(jù)集的特征的判別性和泛化性,因?yàn)檫@兩個特征在遷移學(xué)習(xí)中起著重要的作用,特別是在少樣本設(shè)置中?;谖覀兊姆治?#xff0c;我們有選擇地將MMA引入到特定的更高的transformer層,以實(shí)現(xiàn)區(qū)分和泛化之間的最佳平衡。我們通過三個代表性任務(wù)來評估我們方法的有效性:對新類別的泛化,對新目標(biāo)數(shù)據(jù)集的適應(yīng),以及看不見的領(lǐng)域轉(zhuǎn)移。與其他先進(jìn)方法的比較表明,我們的綜合性能在所有三種類型的評估中都取得了卓越的表現(xiàn)。
參考資料
論文下載(CVPR 2024)
https://openaccess.thecvf.com/content/CVPR2024/papers/Yang_MMA_Multi-Modal_Adapter_for_Vision-Language_Models_CVPR_2024_paper.pdf
代碼地址
https://github.com/ZjjConan/Multi-Modal-Adapter