怎么做淘寶客網(wǎng)站備案win10系統(tǒng)優(yōu)化工具
引言
Abstract
文獻(xiàn)閱讀
1、題目
X-HRNET: TOWARDS LIGHTWEIGHT HUMAN POSE ESTIMATION WITH SPATIALLY UNIDIMENSIONAL SELF-ATTENTION
2、引言
高分辨率表示是人體姿態(tài)估計(jì)實(shí)現(xiàn)高性能所必需的,隨之而來(lái)的問(wèn)題是高計(jì)算復(fù)雜度。特別地,主要的姿態(tài)估計(jì)方法通過(guò)2D單峰熱圖來(lái)估計(jì)人體關(guān)節(jié)。每個(gè)2D熱圖可以水平和垂直地投影到一對(duì)1D熱圖向量并由一對(duì)1D熱圖向量重建。受這一觀察的啟發(fā),我們引入了一個(gè)輕量級(jí)和強(qiáng)大的替代方案,空間一維自注意(SUSA),逐點(diǎn)(1× 1)卷積是dependency可分離3×3卷積中的主要計(jì)算瓶頸。我們的SUSA將逐點(diǎn)(1×1)卷積的計(jì)算復(fù)雜度降低了96%,而不犧牲精度。此外,我們使用SUSA作為主要模塊來(lái)構(gòu)建我們的輕量級(jí)姿勢(shì)估計(jì)骨干X-HRNet,其中X表示估計(jì)的十字形注意力向量。COCO基準(zhǔn)上的大量實(shí)驗(yàn)證明了我們的X-HRNet的優(yōu)越性,全面的消融研究表明了SUSA模塊的有效性。
3、創(chuàng)新點(diǎn)
- 引入了Spatially Unidimensional Self-Attention(SUSA)模塊,通過(guò)Stripe Context Modeling(SCM)和Spatially Unidimensional Transform(SUT)實(shí)現(xiàn)了輕量級(jí)人體姿勢(shì)估計(jì)。
- 提出了X-HRNet網(wǎng)絡(luò),利用SUSA模塊作為主要模塊,實(shí)現(xiàn)了輕量級(jí)的人體姿勢(shì)估計(jì)網(wǎng)絡(luò)。
4、空間單維自我注意 Spatially Unidimensional Self-Attention(SUSA)
SUSA模塊遵循全局上下文塊(GC塊)的設(shè)計(jì)模式,其詳細(xì)結(jié)構(gòu)如下圖(a)所示
GC塊的架構(gòu),本文的SUSA和X-shuffle塊。為了直觀理解,特征被抽象為特征維度,例如,C ×H ×W表示具有通道號(hào)C、高度H和寬度W的特征圖。表示矩陣內(nèi)積,表示逐元素乘法,以及表示逐元素加法。
對(duì)于輸入特征映射x ∈ ,存在兩個(gè)空間維度:H和W。提出了兩個(gè)相應(yīng)的SUSA:H-wise和W-wise SUSA。如上圖b和圖c所示,除了處理不同的空間維度之外,它們完全相同。SUSA可以分為三個(gè)過(guò)程:1)條帶上下文建模(SCM)。SCM僅使用分組矩陣xq沿沿著一個(gè)空間維度(H或W)對(duì)特征進(jìn)行分組,并輸出條帶上下文特征,這與將所有位置的特征分組在一起的GC塊中的全局上下文建模不同。2)空間一維變換(SUT)。SUT通過(guò)逐點(diǎn)(1 × 1)卷積對(duì)分組特征進(jìn)行變換,該卷積在剩余的空間維度上學(xué)習(xí)注意力向量。3)功能聚合。采用逐元素乘法將學(xué)習(xí)的注意力向量與輸入特征圖聚合。
本文的SUSA公式如下:
4.1、Stripe Context Modeling (SCM)
為了達(dá)到表示容量和效率的折衷,我們采用1 × 1群卷積?(group=C)對(duì)
?∈
計(jì)算分組矩陣?
,
由x沿沿著H維加權(quán)平均計(jì)算得到.隨后通過(guò)Softmax歸一化激活
,以增加注意力的動(dòng)態(tài)范圍。
的計(jì)算公式如下:
4.2、Spatially Unidimensional Transform (SUT)
CCW和GC塊都使用兩個(gè)具有瓶頸結(jié)構(gòu)的級(jí)聯(lián)1 × 1卷積來(lái)學(xué)習(xí)條件權(quán)重。這個(gè)技巧減少了FLOP,但引入了額外的卷積,實(shí)際上降低了推理速度。為了簡(jiǎn)化,本文的H-wise SUT通過(guò)單個(gè)1 × 1卷積對(duì)??進(jìn)行編碼,并輸出最終的水平注意力向量
。具體地,ah通過(guò)C維上的LayerNorm(LN)(如GC塊)來(lái)歸一化,并通過(guò)Sigmoid函數(shù)來(lái)激活。估計(jì)?
?被廣播倍增到x作為橫向關(guān)注。相應(yīng)地,W方向的SUT學(xué)習(xí)垂直注意,并通過(guò)按元素相乘將其合并為x。SUT的公式如下:
4.3、Relationship to global context block
本文的SUSA模塊借鑒了GC模塊的設(shè)計(jì)方案,GC塊是Non-Local Network 的一個(gè)有效變體,它旨在捕獲整個(gè)2D空間中的長(zhǎng)程依賴關(guān)系。本文利用的能力,捕獲長(zhǎng)程依賴成組功能沿著一個(gè)空間維度和估計(jì)的條紋上下文功能,而不是全局上下文功能。值得注意的是,本文通過(guò)乘法將條帶上下文特征聚合到輸入特征作為水平或垂直注意力向量,而GC Block通過(guò)加法聚合全局上下文。下圖展示出了一個(gè)玩具示例如下
倍增融合產(chǎn)生比加法融合更尖銳的峰值和更小的聚焦區(qū)域。融合后對(duì)輸出值進(jìn)行歸一化處理。
乘法融合比加法融合產(chǎn)生整形器峰值和更小的激活區(qū)域。GC塊被設(shè)計(jì)為對(duì)長(zhǎng)程依賴性進(jìn)行建模,并且加法融合學(xué)習(xí)大的感受野。然而,我們的SUSA模塊的目標(biāo)像素級(jí)峰值最大化,乘法融合更適合。