上門做網站公司哪家好2021年網絡營銷考試題及答案
整理了ICMR2023 Multi-modal Fake News Detection on Social Media via Multi-grained Information Fusion)論文的閱讀筆記
- 背景
- 模型
- 實驗
背景
??在假新聞檢測領域,目前的方法主要集中在文本和視覺特征的集成上,但不能有效地利用細粒度和粗粒度級別的多模態(tài)信息。此外,由于模態(tài)之間缺乏相關性或每個模態(tài)所做的決策之間存在矛盾,它們還存在歧義問題,如圖一,為了克服這些挑戰(zhàn),本文提出了一個用于假新聞檢測的多粒度多模態(tài)融合網絡(MMFN)。
??MMFN分別使用兩個基于transformer的預訓練模型來編碼文本和圖像的令牌級特征。多模態(tài)模塊融合細粒度特征,同時考慮到CLIP編碼器編碼的粗粒度特征。為了解決歧義問題,設計了基于相似性加權的單模態(tài)分支,以自適應地調整多模態(tài)特征的使用。
模型
??MMFN的網絡設計如圖2所示,由多模態(tài)特征編碼器、多粒度特征融合模塊、單模態(tài)分支和基于CLIP相似度的模態(tài)加權以及分類器組成。
??具體來說,這篇文章使用了三種預訓練的編碼器對多模態(tài)特征進行編碼,分別是基于transformer的BERT和SWIN-T,基于對比學習的CLIP。
??需要注意的是,BERT和SWIN-T的輸出都是token級的,BERT的輸出表示為 T b = [ t 1 b , t 2 b , . . . , t n w b ] T^b=[t_1^b,t_2^b,...,t_{nw}^b] Tb=[t1b?,t2b?,...,tnwb?],其中 t i b t_i^b tib?表示文本嵌入中第i個token(也就是第i個詞)的最后一個隱藏狀態(tài)的輸出, d b d_b db?是單詞嵌入的維度。SWIN-T的輸出表示為 V s = [ v 1 s , v 2 s , . . . , v n p s ] V^s=[v_1^s,v_2^s,...,v_{n_p}^s] Vs=[v1s?,v2s?,...,vnp?s?],其中, v i s ∈ R s s v_i^s\in R^{s_s} vis?∈Rss?為模型最后一層輸出處對應于輸入的第i個patch的隱藏狀態(tài),𝑛𝑝為SWIN-T中的patch數(shù), d s d_s ds?為視覺嵌入的隱藏大小。
??CLIP文本和圖片編碼器的結果為 X c = [ t c , v c ] X^c=[t^c,v^c] Xc=[tc,vc],分別表示圖片和文本模態(tài)的嵌入向量,他們處于同一個嵌入空間。
??拿到了這些特征后,本文的單模態(tài)分支就是把BERT和SWIN-T的token級向量進行平平均池化,然后和CLIP的編碼結果拼起來經過一個映射頭,作為兩個單模態(tài)分支特征,即: F t = Φ T ( T b ˉ ; t c ) F^t=\Phi_T(\bar{T_b};t^c) Ft=ΦT?(Tb?ˉ?;tc) F v = Φ V ( V s ˉ ; v c ) F^v=\Phi_V(\bar{V_s};v^c) Fv=ΦV?(Vs?ˉ?;vc)??接下來我們看粗細粒度的多模態(tài)融合模塊,所謂細粒度,就是把 T b T_b Tb?和 V s V_s Vs?分別送入兩個transformer架構的共注意力機制模塊,得到互相加權后的文本和圖片細粒度特征: F v t = C T ( ( T b W t ) , ( V s W v ) ) F^{vt}=CT((T^bW^t),(V^sW^v)) Fvt=CT((TbWt),(VsWv)) F t v = C T ( ( V s W v ) , ( T b W t ) ) F^tv=CT((V^sW^v),(T^bW^t)) Ftv=CT((VsWv),(TbWt))??然后通過幾個全連接層把互相加權過的細粒度特征和粗粒度特征融合: M f = F F N 1 ( F v t ; F t v ) M^f=FFN_1(F^{vt};F^{tv}) Mf=FFN1?(Fvt;Ftv) M c = F F N 2 ( t c ; v c ) M^c=FFN_2(t^c;v^c) Mc=FFN2?(tc;vc) F m = s i m i l a r i t y ? Φ M ( M f , M c ) F^m=similarity\cdot \Phi_M(M^f,M^c) Fm=similarity?ΦM?(Mf,Mc)??similarity是通過CLIP特征算出來的模態(tài)間余弦相似度,作者認為,如果直接將單模態(tài)分支表示發(fā)送給分類器進行決策,分類器可能更傾向于使用具有更深網絡的多模態(tài)表示來擬合結果,而單模態(tài)分支可能會干擾決策并導致更嚴重的歧義問題。因此使用CLIP余弦相似度作為多模態(tài)特征加權的系數(shù)來指導分類器的學習過程,也就是給多模態(tài)特征加權。
??將三個分支的特征送入分類頭得到pre,損失函數(shù)是交叉熵。
實驗
??使用的數(shù)據(jù)集是2017年MM文章提出的Twitter和Weibo,以及Fakenewsnet中的Gossipcop,得到了SOTA效果:
??消融實驗:
??在微博的測試集上進行的T-SNE降維可視化: