手機(jī)微網(wǎng)站怎么做的網(wǎng)奇seo賺錢(qián)培訓(xùn)
Eric Jang: A Beginner's Guide to Variational Methods: Mean-Field Approximation (evjang.com)
一、說(shuō)明
????????變分貝葉斯 (VB) 方法是統(tǒng)計(jì)機(jī)器學(xué)習(xí)中非常流行的一系列技術(shù)。VB 方法允許我們將?統(tǒng)計(jì)推斷?問(wèn)題(即,給定另一個(gè)隨機(jī)變量的值來(lái)推斷隨機(jī)變量的值)重寫(xiě)為優(yōu)化?問(wèn)題(即,找到最小化某些目標(biāo)函數(shù)的參數(shù)值),本文將闡述這種精妙模型。
二、文章緒論
2.1 VB的概念
????????這種推理-優(yōu)化二元性非常強(qiáng)大,因?yàn)樗试S我們使用最新、最好的優(yōu)化算法來(lái)解決統(tǒng)計(jì)機(jī)器學(xué)習(xí)問(wèn)題(反之亦然,使用統(tǒng)計(jì)技術(shù)最小化函數(shù))。
????????這篇文章是變分方法的介紹性教程。我將導(dǎo)出最簡(jiǎn)單的 VB 方法的優(yōu)化目標(biāo),稱(chēng)為平均場(chǎng)近似。這個(gè)目標(biāo),也稱(chēng)為?變分下界,與變分自編碼器中使用的目標(biāo)完全相同(一篇簡(jiǎn)潔的論文,我將在后續(xù)文章中對(duì)其進(jìn)行解釋)。
?
2.2 本文目錄
- 預(yù)備知識(shí)和符號(hào)
- 問(wèn)題表述
- 平均場(chǎng)近似的變分下界
- 正向 KL 與反向 KL
- 與深度學(xué)習(xí)的聯(lián)系
三、預(yù)備知識(shí)和符號(hào)
????????本文假設(shè)讀者熟悉隨機(jī)變量、概率分布和期望等概念。??如果您忘記了一些東西,這里有一個(gè)回顧。機(jī)器學(xué)習(xí)和統(tǒng)計(jì)符號(hào)的標(biāo)準(zhǔn)化不是很好,因此在這篇文章中使用非常精確的符號(hào)會(huì)很有幫助:
- 大寫(xiě)X表示隨機(jī)變量
- 大寫(xiě)P(?X)表示該變量的概率分布
- 小寫(xiě)x~P?_?_(?X)表示一個(gè)值X采樣(~)從概率分布磷(?X)通過(guò)一些生成過(guò)程。
- 小寫(xiě)p?(?X)是分布的密度函數(shù)X。它是測(cè)度空間上的標(biāo)量函數(shù)X。
- p?(?X=?x?)(速記p?(?x?)) 表示在特定值下評(píng)估的密度函數(shù)X。?
????????許多學(xué)術(shù)論文交替使用術(shù)語(yǔ)“變量”、“分布”、“密度”,甚至“模型”。這本身不一定是錯(cuò)誤的,因?yàn)閄,磷(?X), 和p?(?X)所有這些都通過(guò)一一對(duì)應(yīng)來(lái)相互暗示。?然而,將這些詞混合在一起會(huì)令人困惑,因?yàn)樗鼈兊念?lèi)型不同(對(duì)函數(shù)進(jìn)行采樣沒(méi)有意義,對(duì)分布進(jìn)行積分也沒(méi)有意義)。?
?
????????我們將系統(tǒng)建模為隨機(jī)變量的集合,其中一些變量(X)是“可觀察的”,而其他變量(Z)是“隱藏的”。我們可以通過(guò)下圖來(lái)畫(huà)出這種關(guān)系:
?
????????????????????????????????
????????邊緣繪制自Z到X通過(guò)條件分布將兩個(gè)變量聯(lián)系在一起磷(?X|?Z)。
X=?


?
其中的各個(gè)部分都與通用名稱(chēng)相關(guān)聯(lián):
p?(?Z|?X)是后驗(yàn)概率:“給定圖像,這是一只貓的概率是多少?”?如果我們可以從z~?P(?Z|?X),我們可以用它來(lái)制作一個(gè)貓分類(lèi)器,告訴我們給定的圖像是否是貓。
p?(?X|?Z)是可能性:“給定值為Z??這計(jì)算了該圖像的“可能性”X屬于該類(lèi)別({“is-a-cat”/“is-not-a-cat”})。如果我們可以從x~P?_?_(?X|?Z),然后我們生成貓的圖像和非貓的圖像就像生成隨機(jī)數(shù)一樣容易。如果您想了解更多信息,請(qǐng)參閱我關(guān)于生成模型的其他文章:[1]、[2]。
p?(?Z)是先驗(yàn)概率。這捕獲了我們所知道的任何先前信息Z- 例如,如果我們認(rèn)為現(xiàn)有的所有圖像中有 1/3 是貓,那么p?(?Z=?1?)?=13和p?(?Z=?0?)?=23。
?
3.1 作為先驗(yàn)的隱藏變量
????????這是感興趣的讀者的旁白。跳到下一部分繼續(xù)學(xué)習(xí)本教程。
????????前面的貓示例展示了觀察變量、隱藏變量和先驗(yàn)的非常傳統(tǒng)的示例。然而,重要的是要認(rèn)識(shí)到隱藏變量/觀察變量之間的區(qū)別有些任意,并且您可以隨意分解圖形模型。
我們可以通過(guò)交換術(shù)語(yǔ)來(lái)重寫(xiě)貝葉斯定理:
?
????????所討論的“后”是現(xiàn)在磷(?X|?Z)。隱藏變量可以從貝葉斯統(tǒng)計(jì)
????????框架 解釋??為??附加到觀察到的變量的先驗(yàn)信念。例如,如果我們相信X是多元高斯分布,隱藏變量Z可能代表高斯分布的均值和方差。參數(shù)分布磷(?Z)那么?先驗(yàn)?分布為磷(?X)。
????????您還可以自由選擇哪些值X和Z代表。例如,Z可以改為“平均值、方差的立方根,以及X+?Y在哪里是~?N(?0?,?1?)”。這有點(diǎn)不自然和奇怪,但結(jié)構(gòu)仍然有效,只要磷(?X|?Z)進(jìn)行相應(yīng)修改。
????????您甚至可以向系統(tǒng)“添加”變量。先驗(yàn)本身可能依賴于其他隨機(jī)變量磷(?Z|?θ),它們有自己的先驗(yàn)分布磷(?θ?),并且那些仍然有先驗(yàn),等等。任何超參數(shù)都可以被認(rèn)為是先驗(yàn)。在貝葉斯統(tǒng)計(jì)中,?先驗(yàn)一直向下。
3.2?問(wèn)題表述
????????我們感興趣的關(guān)鍵問(wèn)題是后驗(yàn)推理,或者隱藏變量的計(jì)算函數(shù)。Z。后驗(yàn)推理的一些典型例子:
- 鑒于這段監(jiān)控錄像X,嫌疑人出現(xiàn)在其中嗎?
- 鑒于此推特提要X,作者郁悶嗎?
- 鑒于歷史股價(jià)X1?:?t???1,什么會(huì)Xt是?
????????問(wèn)題是,對(duì)于上面這樣的復(fù)雜任務(wù),我們通常不知道如何從中采樣磷(?Z|?X)或計(jì)算p?(?X|?Z)。或者,我們可能知道以下形式p?(?Z|?X),但相應(yīng)的計(jì)算非常復(fù)雜,我們無(wú)法在合理的時(shí)間內(nèi)對(duì)其進(jìn)行評(píng)估。我們可以嘗試使用基于采樣的方法,例如MCMC,但這些方法收斂速度很慢。
?
四、平均場(chǎng)近似的變分下界
????????變分推理背后的想法是這樣的:讓我們對(duì)一個(gè)簡(jiǎn)單的參數(shù)分布進(jìn)行推理問(wèn)φ(?Z|?X)(如高斯)我們知道如何進(jìn)行后驗(yàn)推理,但調(diào)整參數(shù)φ以便問(wèn)φ是一樣接近磷盡可能。
????????下面直觀地說(shuō)明了這一點(diǎn):藍(lán)色曲線是真正的后驗(yàn)分布,綠色分布是我們通過(guò)優(yōu)化擬合到藍(lán)色密度的變分近似(高斯)。
?
????????反向 KL 散度衡量信息量(以 nat 或單位為單位)需要“扭曲”
使其適應(yīng)
。我們希望最大限度地減少這個(gè)數(shù)量
。
????????根據(jù)條件分布的定義,?。讓我們把這個(gè)表達(dá)式替換成我們?cè)瓉?lái)的表達(dá)式KL表達(dá)式,然后分布:
盡量減少?關(guān)于變分參數(shù)φ,我們只需最小化
? ?, 因?yàn)?
相對(duì)于固定φ。讓我們將這個(gè)數(shù)量重寫(xiě)為分布的期望?
?。

在文學(xué)中,被稱(chēng)為變分下界,并且如果我們可以評(píng)估,則在計(jì)算上是易于處理的
。我們可以進(jìn)一步重新排列術(shù)語(yǔ),產(chǎn)生直觀的公式:
????????如果抽樣?是一個(gè)轉(zhuǎn)換觀察結(jié)果的“編碼”過(guò)程X到潛在代碼z,然后采樣
?是一個(gè)“解碼”過(guò)程,從z。
????????它遵循L是預(yù)期“解碼”可能性的總和(我們的變分分布可以解碼樣本的效果如何)Z回到樣本X),加上變分近似與先驗(yàn)之間的 KL 散度Z。如果我們假設(shè)Q?(Z|?X)是條件高斯的,然后先驗(yàn)Z通常選擇均值為 0、標(biāo)準(zhǔn)差為 1 的對(duì)角高斯分布。
????????為什么L稱(chēng)為變分下界?替代L回到方程。(1),我們有:
????????自從KL?(?Q?|?|?P)?≥?0,日志p?(?x?)必須大于L。所以L是下界_日志p?(?x?)。L也稱(chēng)為證據(jù)下界 (ELBO),通過(guò)替代公式:
?
注意L本身包含近似后驗(yàn)和先驗(yàn)之間的 KL 散度項(xiàng),因此總共有兩個(gè) KL 項(xiàng)日志p?(?x?)。
?
4.1 正向 KL 與反向 KL
????????KL散度不是對(duì)稱(chēng)?距離函數(shù),即
????????我真的很喜歡 Kevin Murphy 在PML 教科書(shū)中的解釋,我將嘗試在這里重新表述:
????????讓我們首先考慮前鋒 KL。正如我們從上面的推導(dǎo)中看到的,我們可以將 KL 寫(xiě)成“懲罰”函數(shù)的期望通過(guò)權(quán)重函數(shù)p?(?z)。
????????因此,當(dāng)我們確保?無(wú)論在哪里
。優(yōu)化的變分分布
?被稱(chēng)為“避免零”(當(dāng)密度避免為零時(shí)p?(?Z)為零)。
最小化 Reverse-KL 具有完全相反的行為:
如果p?(?Z)?=?0,我們必須保證權(quán)重函數(shù)q(?Z)?=?0無(wú)論分母在哪里p?(?Z)?=?0,否則 KL 就會(huì)爆炸。這稱(chēng)為“迫零”:
????????總而言之,最小化前向 KL 會(huì)“拉伸”你的變分分布Q?(Z)覆蓋整個(gè)P(?Z)就像防水布一樣,同時(shí)最大限度地減少反向KL“擠壓”Q?(Z)?在下面?P(?Z)。
????????在機(jī)器學(xué)習(xí)問(wèn)題中使用平均場(chǎng)近似時(shí),請(qǐng)務(wù)必牢記使用反向 KL 的含義。如果我們將單峰分布擬合到多峰分布,我們最終會(huì)得到更多的假陰性(實(shí)際上有概率質(zhì)量P(?Z)我們認(rèn)為沒(méi)有的地方Q?(Z))。
?
4.2 與深度學(xué)習(xí)的聯(lián)系
????????變分方法對(duì)于深度學(xué)習(xí)非常重要。我將在后面的文章中詳細(xì)闡述,但這里有一個(gè)快速劇透:
- 深度學(xué)習(xí)非常擅長(zhǎng)使用大量數(shù)據(jù)對(duì)非常大的參數(shù)空間進(jìn)行優(yōu)化(特別是梯度下降)。
- 變分貝葉斯為我們提供了一個(gè)框架,通過(guò)它我們可以將統(tǒng)計(jì)推理問(wèn)題重寫(xiě)為優(yōu)化問(wèn)題。
????????感謝您的閱讀,敬請(qǐng)關(guān)注!