做網(wǎng)站怎么做鼠標(biāo)跟隨2023很有可能再次封城嗎
InstDisc
提出了個體判別任務(wù),而且利用這個代理任務(wù)與NCE Loss去做對比學(xué)習(xí)從而得到了不錯的無監(jiān)督表征學(xué)習(xí)的結(jié)果;同時提出了別的數(shù)據(jù)結(jié)構(gòu)——Memory Bank來存儲大量負(fù)樣本;解決如何對特征進(jìn)行動量式的更新
翻譯:
有監(jiān)督學(xué)習(xí)的結(jié)果激勵了我們的無監(jiān)督學(xué)習(xí)方法。對于來自豹的圖像,從已經(jīng)訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)分類器中獲得最高響應(yīng)的類都是視覺上相關(guān)的,例如,美洲虎和獵豹。無關(guān)語義標(biāo)記,而是數(shù)據(jù)本身明顯的相似性使一些類比其他類更接近。我們的無監(jiān)督方法將這種按類判別的無監(jiān)督信號發(fā)揮到了極致,并學(xué)習(xí)了區(qū)分單個實例的特征表示。
總結(jié):
把每個實例(也就是圖片)都看作一個類別,目標(biāo)是學(xué)一種特征,從而讓我們能把每一個圖片都區(qū)分開來
翻譯:
這是無監(jiān)督特征學(xué)習(xí)方法的整體流程。我們使用主干CNN將每張圖像編碼為特征向量,將其投影到128維空間并進(jìn)行L2歸一化。最優(yōu)的特征嵌入是通過實例級判別來學(xué)習(xí)的,它試圖最大限度地將訓(xùn)練樣本的特征分散在128維單位球面上。
總結(jié):
通過CNN把所有圖片編碼成特征,希望這些特征在最后的特征空間里能夠盡可能的分開
利用對比學(xué)習(xí)訓(xùn)練CNN,正樣本是圖片本身(可能加一些數(shù)據(jù)增強),負(fù)樣本則是數(shù)據(jù)集中其他圖片
大量的負(fù)樣本特征存在哪呢?運用Memory Bank的形式,把特征存進(jìn)去,有多少特征就有多少行,因此特征的維度不能太大
Memory Bank隨機初始化維單位向量
正樣本利用CNN降低維度后,從Memory Bank中隨機抽取負(fù)樣本,然后可以用NCE Loss計算這個對比學(xué)習(xí)的目標(biāo)函數(shù),更新完網(wǎng)絡(luò)后,可以把這些數(shù)據(jù)樣本對應(yīng)的特征放進(jìn)Memory Bank更換掉
Proximal Regularization
給模型加了個約束,從而能讓Memory Bank中的那些特征進(jìn)行動量式的更新
Unlike typical classification settings where each class has many instances, we only have one instance per class.During each training epoch, each class is only visited once.
Therefore, the learning process oscillates a lot from random sampling fluctuation. We employ the proximal optimization method [29] and introduce an additional term to encourage the smoothness of the training dynamics. At current iteration t, the feature representation for data xi is computed from the network v (t) i = fθ(xi). The memory bank of all the representation are stored at previous iteration V = fv (t?1)g. The loss function for a positive sample from Pd is:
翻譯:
與每個類有許多實例的典型分類設(shè)置不同,我們每個類只有一個實例。在每個訓(xùn)練階段,每個類只訪問一次。因此,學(xué)習(xí)過程在隨機抽樣波動中振蕩很大。我們采用了最接近優(yōu)化方法[29],并引入了一個額外的術(shù)語來鼓勵訓(xùn)練動態(tài)的平滑性。在當(dāng)前迭代t中,數(shù)據(jù)xi的特征表示是從網(wǎng)絡(luò)v (t) i = fθ(xi)中計算出來的。所有表示的存儲庫都存儲在前一次迭代V = fv (t?1)g。Pd陽性樣本的損失函數(shù)為:
?As learning converges, the difference between iterations, i.e. v (t) i ? v (t?1) i , gradually vanishes, and the augmented loss is reduced to the original one. With proximal regularization, our final objective becomes:
翻譯:
隨著學(xué)習(xí)的收斂,迭代之間的差值即v (t) i - v (t - 1) i逐漸消失,增廣損失減小到原始損失。通過近端正則化,我們的最終目標(biāo)變成:
InvaSpreed
對于相似的圖片,它的特征應(yīng)該保持不變性;對不相似的圖片,它的特征應(yīng)該盡可能分散開
端到端;不需要借助外部數(shù)據(jù)結(jié)構(gòu)去存儲負(fù)樣本
同樣的圖片通過編碼器后得到的特征應(yīng)該很相似,而不同的則不相似?
?對X1來說,經(jīng)過數(shù)據(jù)增強的X1‘就是它的正樣本,負(fù)樣本則是其他所有圖片(包括數(shù)據(jù)增強后的)
為什么要從同一個mini-batch中選正負(fù)樣本呢?這樣就可以用一個編碼器去做端到端的訓(xùn)練
圖片過編碼器再過全連接層,把特征維度降低,目標(biāo)函數(shù)則使用NCE Loss的變體
之所以被SimCLR打敗,是因為沒有鈔能力:mini-batch太小,導(dǎo)致負(fù)樣本太少
CPC
以上兩個都使用個體判別式的代理任務(wù),CPC則是使用生成式的代理任務(wù)
不光可以處理音頻,還可以處理文字、圖片、以及在強化學(xué)習(xí)中使用
我們有一個語音序列,從xt-3到xt代表過去到現(xiàn)在的輸入,將其全扔給一個編碼器,把編碼器返回的特征喂給一個自回歸模型gar(RNN或LSTM),得到ct(上下文的特征表示),如果ct足夠好,那么認(rèn)為它可以對未來的zt+1到zt+4做出合理預(yù)測
這里的正樣本是未來的輸入通過編碼器得到的未來時刻的特征輸出,也就是真正正確的zt+1到zt+4
負(fù)樣本的定義倒是很廣泛,任意輸入通過編碼器得到的特征輸出都是負(fù)樣本
CMC
定義正樣本的方式更廣泛:一個物體的很多視角都可以當(dāng)作正樣本
Abstract
Humans view the world through many sensory channels, e.g., the long-wavelength light channel, viewed by the left eye, or the high-frequency vibrations channel, heard by the right ear. Each view is noisy and incomplete, but important factors, such as physics, geometry, and semantics, tend to be shared between all views (e.g., a “dog” can be seen, heard, and felt). We investigate the classic hypothesis that a powerful representation is one that models view-invariant factors. We study this hypothesis under the framework of multiview contrastive learning, where we learn a representation that aims to maximize mutual information between different views of the same scene but is otherwise compact.
Our approach scales to any number of views, and is viewagnostic. We analyze key properties of the approach that make it work, finding that the contrastive loss outperforms a popular alternative based on cross-view prediction, and that the more views we learn from, the better the resulting representation captures underlying scene semantics. Our approach achieves state-of-the-art results on image and video unsupervised learning benchmarks.
翻譯:
人類通過許多感官通道來觀察世界,例如,左眼看到的長波長光通道,或右耳聽到的高頻振動通道。每個視圖都是嘈雜和不完整的,但重要的因素,如物理,幾何和語義,傾向于在所有視圖之間共享(例如,可以看到、聽到和感覺到“狗”)。我們研究了一個經(jīng)典的假設(shè),即一個強大的表示是一個模型的觀點不變的因素。我們在多視圖對比學(xué)習(xí)的框架下研究這一假設(shè),在多視圖對比學(xué)習(xí)中,我們學(xué)習(xí)的表征旨在最大化同一場景的不同視圖之間的相互信息,但除此之外是緊湊的。
我們的方法適用于任意數(shù)量的視圖,并且是視圖不可知論的。我們分析了使其有效的方法的關(guān)鍵屬性,發(fā)現(xiàn)對比損失優(yōu)于基于交叉視圖預(yù)測的流行替代方案,并且我們學(xué)習(xí)的視圖越多,結(jié)果表示捕獲底層場景語義的效果就越好。我們的方法在圖像和視頻無監(jiān)督學(xué)習(xí)基準(zhǔn)上取得了最先進(jìn)的結(jié)果。
總結(jié):
增大所有視覺間的互信息,從而學(xué)得一個能抓住不同視角下的關(guān)鍵因素的特征
選取的NYU RGBD數(shù)據(jù)集有四個視角,分別是原始的圖像、圖像對于的深度信息、surface normal(表面法線)、物體的分割圖像
雖然輸入來自于不同的視角,但都屬于一張圖片,因此這四個特征在特征空間中應(yīng)該盡可能靠近,互為正樣本;不配對的視角應(yīng)該盡可能遠(yuǎn)離?