大學(xué)生做企業(yè)網(wǎng)站東莞關(guān)鍵詞優(yōu)化平臺(tái)
Lseg
在clip后面加一個(gè)分割head,然后用分割數(shù)據(jù)集有監(jiān)督訓(xùn)練。textencoder使用clip,frozen住。
group ViT
與Lseg不同,借鑒了clip做了真正的無監(jiān)督學(xué)習(xí)。
具體的通過group block來做的。使用學(xué)習(xí)的N個(gè)group token(可以理解為聚類中心數(shù)量)與圖像做attention。分別加入兩次。一個(gè)為64個(gè),一次為8個(gè)(粗聚類->精聚類),最后pooling后與文本做對(duì)比學(xué)習(xí)。
結(jié)果發(fā)現(xiàn)分割已經(jīng)做的很好了。分類結(jié)果還差一些。
ViLD
clip+目標(biāo)檢測(cè)
對(duì)N個(gè)proposal與text(open 類別)分別提特征,然后計(jì)算相似度。
然后額外增加一個(gè)分支,對(duì)M個(gè)proposal的圖片(N里面取topM)使用clip的Image encoder提特征,與目標(biāo)檢測(cè)的圖片特征做知識(shí)蒸餾。
Glip
統(tǒng)一了檢測(cè)和grounding(類似VQA),又使用了偽標(biāo)簽,引入了非常多的圖像文本對(duì),用于預(yù)訓(xùn)練,效果非常好。
具體做法和clip很像,文本分支,和圖像分支算距離,然后求alignment loss(相當(dāng)于分類分支),再加一個(gè)定位loss。
然后加入了一個(gè)文本圖像的融合模塊(使用cross-attention),整個(gè)框架和ViLD-text很像。