西安制作網(wǎng)站的公司有福州seo排名優(yōu)化公司
這篇《Deep Residual Learning for Image Recognition》(深度殘差學(xué)習(xí)在圖像識別中的應(yīng)用)是深度學(xué)習(xí)領(lǐng)域一篇里程碑式的論文,它的核心思想——殘差網(wǎng)絡(luò)(ResNet)——至今仍然是各種先進模型的基礎(chǔ)。
我會用最通俗易懂的方式為你解構(gòu)這篇論文。
一句話總結(jié)
這篇論文提出了一種全新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)——殘差網(wǎng)絡(luò)(ResNet),通過引入“快捷連接”(Skip Connection),巧妙地解決了“網(wǎng)絡(luò)越深,訓(xùn)練越難”的**“網(wǎng)絡(luò)退化”**問題,使得構(gòu)建數(shù)百層甚至上千層的超深神經(jīng)網(wǎng)絡(luò)成為可能。
1. 解決了什么核心問題?——“網(wǎng)絡(luò)退化” (Degradation)
在ResNet出現(xiàn)之前,大家普遍認(rèn)為,神經(jīng)網(wǎng)絡(luò)越深,提取的特征就越復(fù)雜、越豐富,模型性能也應(yīng)該越好。但實驗發(fā)現(xiàn)了一個奇怪的現(xiàn)象:
-
當(dāng)網(wǎng)絡(luò)深度增加到一定程度后(比如從20層增加到56層),模型的準(zhǔn)確率反而下降了。
-
關(guān)鍵是:這種性能下降不是過擬合(Overfitting)導(dǎo)致的。因為不僅測試集上的誤差變高了,連訓(xùn)練集上的誤差也變高了。這意味著,更深的網(wǎng)絡(luò)連在訓(xùn)練數(shù)據(jù)上擬合得都更差了。
這個現(xiàn)象就是**“網(wǎng)絡(luò)退化”(Degradation)**問題。它說明,一個更深的網(wǎng)絡(luò),其訓(xùn)練難度急劇增加,優(yōu)化算法很難找到一個好的解,甚至連“復(fù)制”一個較淺網(wǎng)絡(luò)的性能都做不到。
舉個例子:理論上,一個56層的網(wǎng)絡(luò),至少可以學(xué)到一個和20層網(wǎng)絡(luò)一樣好的結(jié)果。最差的情況是:前20層復(fù)制那個訓(xùn)練好的20層網(wǎng)絡(luò),后面36層什么都不做,只做“恒等映射”(Identity Mapping),即輸入是什么,輸出就是什么。但實際情況是,優(yōu)化器(如SGD)很難讓那36層學(xué)會什么都不做,導(dǎo)致整體效果變差。
2. 核心思想是什么?——“殘差學(xué)習(xí)” (Residual Learning)
為了解決“網(wǎng)絡(luò)退化”問題,作者何愷明等人提出了“殘差學(xué)習(xí)”的核心思想。
傳統(tǒng)網(wǎng)絡(luò)的思路是:
讓一層或多層網(wǎng)絡(luò)直接學(xué)習(xí)一個目標(biāo)映射?H(x)。比如,輸入是?x,我們希望網(wǎng)絡(luò)的輸出是?H(x)。
ResNet的思路是:
我們不直接學(xué)習(xí)目標(biāo)?H(x),而是學(xué)習(xí)一個**“殘差”(Residual)**,即?F(x) = H(x) - x。
這樣,原來的目標(biāo)就變成了?H(x) = F(x) + x。這個?+ x?的操作,就是通過一條“快捷連接”(Skip Connection 或 Shortcut)實現(xiàn)的。它把輸入?x?直接跳過多層網(wǎng)絡(luò),加到后面網(wǎng)絡(luò)的輸出上。
這么做有什么好處?
這正是ResNet的精髓所在!
-
學(xué)習(xí)目標(biāo)變簡單了:我們回到之前“網(wǎng)絡(luò)退化”的例子。如果某個深層網(wǎng)絡(luò)的一部分已經(jīng)是冗余的,即我們希望它什么都不做,只進行“恒等映射”(H(x) = x),那么:
-
傳統(tǒng)網(wǎng)絡(luò):需要讓好幾層復(fù)雜的非線性網(wǎng)絡(luò)(帶ReLU激活函數(shù))去擬合一個?y = x?的線性函數(shù)。這對于優(yōu)化器來說非常困難。
-
ResNet:只需要讓殘差部分?F(x)?的輸出為?0?即可。因為?H(x) = F(x) + x,當(dāng)?F(x) = 0?時,H(x) = x,恒等映射就輕松實現(xiàn)了。讓一個網(wǎng)絡(luò)的權(quán)重趨向于0,比讓它擬合一個恒等映射要容易得多。
-
一個絕妙的比喻:
把學(xué)習(xí)過程比作學(xué)生做題。
-
傳統(tǒng)網(wǎng)絡(luò):像一個新手,每次都從頭開始解一道復(fù)雜的題(學(xué)習(xí)H(x))。
-
ResNet:像一個有基礎(chǔ)的學(xué)生,他手上已經(jīng)有了一份參考答案(輸入x)。老師不讓他從頭做,而是讓他找出參考答案和標(biāo)準(zhǔn)答案之間的“差”(學(xué)習(xí)殘差F(x))。如果參考答案已經(jīng)很完美了,他只需要說“沒差別”(輸出0)就行了,非常省力。
這條“快捷連接”就像一條高速公路,保證了原始信息(x)可以無損地傳遞到深層。而網(wǎng)絡(luò)層(F(x))只需要在旁邊的小路上學(xué)習(xí)如何對主路信息進行微調(diào)和補充,大大降低了學(xué)習(xí)負(fù)擔(dān)。
3. 這篇論文的貢獻與影響
-
解決了網(wǎng)絡(luò)退化問題:首次成功訓(xùn)練了超過100層,甚至1000層的超深神經(jīng)網(wǎng)絡(luò),并取得了優(yōu)異的性能。
-
贏得了多項競賽冠軍:ResNet在2015年的ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC)中,包攬了圖像分類、目標(biāo)檢測、圖像定位等多個項目的冠軍,展現(xiàn)了其強大的實力。
-
成為現(xiàn)代深度學(xué)習(xí)的基石:殘差連接的思想極為深刻和有效,它已經(jīng)成為設(shè)計現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)(不僅限于CV領(lǐng)域)的一個標(biāo)準(zhǔn)組件。無論是后來的DenseNet、ResNeXt,還是NLP領(lǐng)域的Transformer(其內(nèi)部也大量使用了類似的思想),都受到了ResNet的啟發(fā)。
-
改變了研究范式:它讓研究者們不再僅僅關(guān)注于“加寬”或“加深”網(wǎng)絡(luò),而是開始思考如何設(shè)計更有效的“信息流路徑”,讓梯度能夠更順暢地在深層網(wǎng)絡(luò)中傳播。
總結(jié)
《Deep Residual Learning for Image Recognition》這篇論文的核心可以歸結(jié)為:
-
發(fā)現(xiàn)問題:深度網(wǎng)絡(luò)存在“退化”現(xiàn)象,即網(wǎng)絡(luò)越深,訓(xùn)練效果反而越差。
-
提出方案:設(shè)計“殘差塊”(Residual Block),通過“快捷連接”讓網(wǎng)絡(luò)去學(xué)習(xí)輸入與輸出之間的“殘差”,而非直接學(xué)習(xí)完整的輸出。
-
達(dá)成效果:極大地簡化了深層網(wǎng)絡(luò)的訓(xùn)練,使得構(gòu)建和訓(xùn)練上百層的網(wǎng)絡(luò)成為現(xiàn)實,并大幅提升了模型性能,成為深度學(xué)習(xí)發(fā)展史上的一個重要轉(zhuǎn)折點。