中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁(yè) > news >正文

手機(jī)微網(wǎng)站怎么做的網(wǎng)奇seo賺錢(qián)培訓(xùn)

手機(jī)微網(wǎng)站怎么做的,網(wǎng)奇seo賺錢(qián)培訓(xùn),做網(wǎng)站公司怎么備案客戶網(wǎng)站,上海公司排行榜Eric Jang: A Beginners Guide to Variational Methods: Mean-Field Approximation (evjang.com) 一、說(shuō)明 變分貝葉斯 (VB) 方法是統(tǒng)計(jì)機(jī)器學(xué)習(xí)中非常流行的一系列技術(shù)。VB 方法允許我們將 統(tǒng)計(jì)推斷 問(wèn)題(即,給定另一個(gè)隨機(jī)變量的值來(lái)推斷隨機(jī)變量的值&…

一、說(shuō)明

????????變分貝葉斯 (VB) 方法是統(tǒng)計(jì)機(jī)器學(xué)習(xí)中非常流行的一系列技術(shù)。VB 方法允許我們將?統(tǒng)計(jì)推斷?問(wèn)題(即,給定另一個(gè)隨機(jī)變量的值來(lái)推斷隨機(jī)變量的值)重寫(xiě)為優(yōu)化?問(wèn)題(即,找到最小化某些目標(biāo)函數(shù)的參數(shù)值),本文將闡述這種精妙模型。

二、文章緒論

2.1 VB的概念

????????變分貝葉斯 (VB) 方法是統(tǒng)計(jì)機(jī)器學(xué)習(xí)中非常流行的一系列技術(shù)。VB 方法允許我們將?統(tǒng)計(jì)推斷?問(wèn)題(即,給定另一個(gè)隨機(jī)變量的值來(lái)推斷隨機(jī)變量的值)重寫(xiě)為優(yōu)化?問(wèn)題(即,找到最小化某些目標(biāo)函數(shù)的參數(shù)值)。

????????這種推理-優(yōu)化二元性非常強(qiáng)大,因?yàn)樗试S我們使用最新、最好的優(yōu)化算法來(lái)解決統(tǒng)計(jì)機(jī)器學(xué)習(xí)問(wèn)題(反之亦然,使用統(tǒng)計(jì)技術(shù)最小化函數(shù))。

????????這篇文章是變分方法的介紹性教程。我將導(dǎo)出最簡(jiǎn)單的 VB 方法的優(yōu)化目標(biāo),稱(chēng)為平均場(chǎng)近似。這個(gè)目標(biāo),也稱(chēng)為?變分下界,與變分自編碼器中使用的目標(biāo)完全相同(一篇簡(jiǎn)潔的論文,我將在后續(xù)文章中對(duì)其進(jìn)行解釋)。

?

2.2 本文目錄

  1. 預(yù)備知識(shí)和符號(hào)
  2. 問(wèn)題表述
  3. 平均場(chǎng)近似的變分下界
  4. 正向 KL 與反向 KL
  5. 與深度學(xué)習(xí)的聯(lián)系

三、預(yù)備知識(shí)和符號(hào)


????????本文假設(shè)讀者熟悉隨機(jī)變量、概率分布和期望等概念。??如果您忘記了一些東西,這里有一個(gè)回顧。機(jī)器學(xué)習(xí)和統(tǒng)計(jì)符號(hào)的標(biāo)準(zhǔn)化不是很好,因此在這篇文章中使用非常精確的符號(hào)會(huì)很有幫助:
  • 大寫(xiě)X表示隨機(jī)變量
  • 大寫(xiě)P(?X)表示該變量的概率分布
  • 小寫(xiě)x~P?_?_(?X)表示一個(gè)值X采樣(~)從概率分布磷(?X)通過(guò)一些生成過(guò)程。
  • 小寫(xiě)p?(?X)是分布的密度函數(shù)X。它是測(cè)度空間上的標(biāo)量函數(shù)X。
  • p?(?X=?x?)(速記p?(?x?)) 表示在特定值下評(píng)估的密度函數(shù)X。?

????????許多學(xué)術(shù)論文交替使用術(shù)語(yǔ)“變量”、“分布”、“密度”,甚至“模型”。這本身不一定是錯(cuò)誤的,因?yàn)閄,磷(?X), 和p?(?X)所有這些都通過(guò)一一對(duì)應(yīng)來(lái)相互暗示。?然而,將這些詞混合在一起會(huì)令人困惑,因?yàn)樗鼈兊念?lèi)型不同(對(duì)函數(shù)進(jìn)行采樣沒(méi)有意義,對(duì)分布進(jìn)行積分也沒(méi)有意義)。?
?

????????我們將系統(tǒng)建模為隨機(jī)變量的集合,其中一些變量(X)是“可觀察的”,而其他變量(Z)是“隱藏的”。我們可以通過(guò)下圖來(lái)畫(huà)出這種關(guān)系:
?

????????????????????????????????

?

????????邊緣繪制自Z到X通過(guò)條件分布將兩個(gè)變量聯(lián)系在一起磷(?X|?Z)。
????????這是一個(gè)更具體的例子:X可能代表“圖像的原始像素值”,而Z是一個(gè)二元變量,使得Z=?1“如果X是一只貓的圖像”。
?

X=?

P(?Z=?1?)?=?1(肯定是貓)
X=
P(?Z=?1?)?=?0(絕對(duì)不是貓)
X=?
P(?Z=?1?)?=?0.1(有點(diǎn)像貓)
貝葉斯定理為我們提供了任意一對(duì)隨機(jī)變量之間的一般關(guān)系:
?
p?(?Z|?X)=p?(?X|?Z)?p?(?Z)p?(?X)


其中的各個(gè)部分都與通用名稱(chēng)相關(guān)聯(lián):

p?(?Z|?X)是后驗(yàn)概率:“給定圖像,這是一只貓的概率是多少?”?如果我們可以從z~?P(?Z|?X),我們可以用它來(lái)制作一個(gè)貓分類(lèi)器,告訴我們給定的圖像是否是貓。

p?(?X|?Z)是可能性:“給定值為Z??這計(jì)算了該圖像的“可能性”X屬于該類(lèi)別({“is-a-cat”/“is-not-a-cat”})。如果我們可以從x~P?_?_(?X|?Z),然后我們生成貓的圖像和非貓的圖像就像生成隨機(jī)數(shù)一樣容易。如果您想了解更多信息,請(qǐng)參閱我關(guān)于生成模型的其他文章:[1]、[2]。

p?(?Z)是先驗(yàn)概率。這捕獲了我們所知道的任何先前信息Z- 例如,如果我們認(rèn)為現(xiàn)有的所有圖像中有 1/3 是貓,那么p?(?Z=?1?)?=13和p?(?Z=?0?)?=23。

?

3.1 作為先驗(yàn)的隱藏變量


????????這是感興趣的讀者的旁白。跳到下一部分繼續(xù)學(xué)習(xí)本教程。

????????前面的貓示例展示了觀察變量、隱藏變量和先驗(yàn)的非常傳統(tǒng)的示例。然而,重要的是要認(rèn)識(shí)到隱藏變量/觀察變量之間的區(qū)別有些任意,并且您可以隨意分解圖形模型。

我們可以通過(guò)交換術(shù)語(yǔ)來(lái)重寫(xiě)貝葉斯定理:

?
p?(?Z|?X)?p?(?X)p?(?Z)=?p?(?X|?Z)



????????所討論的“后”是現(xiàn)在磷(?X|?Z)。隱藏變量可以從貝葉斯統(tǒng)計(jì)

????????框架 解釋??為??附加到觀察到的變量的先驗(yàn)信念。例如,如果我們相信X是多元高斯分布,隱藏變量Z可能代表高斯分布的均值和方差。參數(shù)分布磷(?Z)那么?先驗(yàn)?分布為磷(?X)。

????????您還可以自由選擇哪些值X和Z代表。例如,Z可以改為“平均值、方差的立方根,以及X+?Y在哪里是~?N(?0?,?1?)”。這有點(diǎn)不自然和奇怪,但結(jié)構(gòu)仍然有效,只要磷(?X|?Z)進(jìn)行相應(yīng)修改。

????????您甚至可以向系統(tǒng)“添加”變量。先驗(yàn)本身可能依賴于其他隨機(jī)變量磷(?Z|?θ),它們有自己的先驗(yàn)分布磷(?θ?),并且那些仍然有先驗(yàn),等等。任何超參數(shù)都可以被認(rèn)為是先驗(yàn)。在貝葉斯統(tǒng)計(jì)中,?先驗(yàn)一直向下。

?

3.2?問(wèn)題表述


????????我們感興趣的關(guān)鍵問(wèn)題是后驗(yàn)推理,或者隱藏變量的計(jì)算函數(shù)。Z。后驗(yàn)推理的一些典型例子:
  • 鑒于這段監(jiān)控錄像X,嫌疑人出現(xiàn)在其中嗎?
  • 鑒于此推特提要X,作者郁悶嗎?
  • 鑒于歷史股價(jià)X1?:?t???1,什么會(huì)Xt是?
???????? 我們通常假設(shè)我們知道如何計(jì)算似然函數(shù)上的函數(shù)磷(?X|?Z)和先驗(yàn)磷(?Z)。

????????問(wèn)題是,對(duì)于上面這樣的復(fù)雜任務(wù),我們通常不知道如何從中采樣磷(?Z|?X)或計(jì)算p?(?X|?Z)。或者,我們可能知道以下形式p?(?Z|?X),但相應(yīng)的計(jì)算非常復(fù)雜,我們無(wú)法在合理的時(shí)間內(nèi)對(duì)其進(jìn)行評(píng)估。我們可以嘗試使用基于采樣的方法,例如MCMC,但這些方法收斂速度很慢。

?

四、平均場(chǎng)近似的變分下界


????????變分推理背后的想法是這樣的:讓我們對(duì)一個(gè)簡(jiǎn)單的參數(shù)分布進(jìn)行推理問(wèn)φ(?Z|?X)(如高斯)我們知道如何進(jìn)行后驗(yàn)推理,但調(diào)整參數(shù)φ以便問(wèn)φ是一樣接近磷盡可能。

????????下面直觀地說(shuō)明了這一點(diǎn):藍(lán)色曲線是真正的后驗(yàn)分布,綠色分布是我們通過(guò)優(yōu)化擬合到藍(lán)色密度的變分近似(高斯)。

?
分布“接近”意味著什么?平均場(chǎng)變分貝葉斯(最常見(jiàn)的類(lèi)型)使用反向 KL 散度作為兩個(gè)分布之間的距離度量。
KL(Q_\phi(Z|X)||P(Z|X)) = \sum_{z \in Z}{q_\phi(z|x)\log\frac{q_\phi(z|x)}{p(z|x)}}
??
?

????????反向 KL 散度衡量信息量(以 nat 或單位為單位\frac{1}{\log(2)})需要“扭曲”P(Z)使其適應(yīng)Q_\phi(Z)。我們希望最大限度地減少這個(gè)數(shù)量\phi

????????根據(jù)條件分布的定義,p(z|x) = \frac{p(x,z)}{p(x)}?。讓我們把這個(gè)表達(dá)式替換成我們?cè)瓉?lái)的表達(dá)式KL表達(dá)式,然后分布:

盡量減少KL(Q||P)?關(guān)于變分參數(shù)φ,我們只需最小化\sum_{z}{q_\phi(z|x)\log{\frac{q_\phi(z|x)}{p(z,x)}}}? ?, 因?yàn)?\log{p(x)}相對(duì)于固定φ。讓我們將這個(gè)數(shù)量重寫(xiě)為分布的期望?Q_\phi(Z|X)?。

????????最小化這個(gè)相當(dāng)于 最大化 這個(gè)函數(shù)的負(fù)數(shù):



在文學(xué)中,\mathcal{L}被稱(chēng)為變分下界,并且如果我們可以評(píng)估,則在計(jì)算上是易于處理的p ( x | z) , p ( z) , q( z| x)。我們可以進(jìn)一步重新排列術(shù)語(yǔ),產(chǎn)生直觀的公式:



????????如果抽樣z \sim Q(Z|X)?是一個(gè)轉(zhuǎn)換觀察結(jié)果的“編碼”過(guò)程X到潛在代碼z,然后采樣x \sim Q(X|Z)?是一個(gè)“解碼”過(guò)程,從z。

????????它遵循L是預(yù)期“解碼”可能性的總和(我們的變分分布可以解碼樣本的效果如何)Z回到樣本X),加上變分近似與先驗(yàn)之間的 KL 散度Z。如果我們假設(shè)Q?(Z|?X)是條件高斯的,然后先驗(yàn)Z通常選擇均值為 0、標(biāo)準(zhǔn)差為 1 的對(duì)角高斯分布。

????????為什么L稱(chēng)為變分下界?替代L回到方程。(1),我們有:

????????等式的含義?(4),用通俗的語(yǔ)言來(lái)說(shuō),就是p ( x ),數(shù)據(jù)點(diǎn)的對(duì)數(shù)似然X在真實(shí)分布下,是 \mathcal{L},加上一個(gè)誤差項(xiàng)KL(Q||P)?捕獲之間的距離Q(Z|X=x)?和 P(Z|X=x) 在該特定值X

????????自從KL?(?Q?|?|?P)?≥?0,日志p?(?x?)必須大于L。所以L是下界_日志p?(?x?)。L也稱(chēng)為證據(jù)下界 (ELBO),通過(guò)替代公式:
?
L?=對(duì)數(shù)p?(?x?)???KL?(?Q?(?Z|?X)?|?|?磷(?Z|?X)?)?=乙問(wèn)[日志p?(?x?|?z)?]??KL?(?Q?(?Z|?X)?|?|?磷(?Z)?)


注意L本身包含近似后驗(yàn)和先驗(yàn)之間的 KL 散度項(xiàng),因此總共有兩個(gè) KL 項(xiàng)日志p?(?x?)。
?

4.1 正向 KL 與反向 KL


????????KL散度不是對(duì)稱(chēng)?距離函數(shù),即KL(P||Q) \neq KL(Q||P)?(除非當(dāng)Q?=?P)第一種稱(chēng)為“正向KL”,而后者則稱(chēng)為“反向KL”。那么為什么我們要使用Reverse KL呢?這是因?yàn)橛纱水a(chǎn)生的推導(dǎo)需要我們知道如何計(jì)算p(Z| X),這就是我們首先想做的。


????????我真的很喜歡 Kevin Murphy 在PML 教科書(shū)中的解釋,我將嘗試在這里重新表述:

????????讓我們首先考慮前鋒 KL。正如我們從上面的推導(dǎo)中看到的,我們可以將 KL 寫(xiě)成“懲罰”函數(shù)的期望\log \frac{p(z)}{q(z)}通過(guò)權(quán)重函數(shù)p?(?z)。

????????無(wú)論何時(shí)p(Z) > 0,懲罰函數(shù)都會(huì)對(duì)總 KL 造成損失。因?yàn)?img referrerpolicy="no-referrer" alt="p(Z)>0" class="mathcode" src="https://latex.csdn.net/eq?p%28Z%29%3E0" />,\lim_{q(Z) \to 0} \log \frac{p(z)}{q(z)} \to \infty?。這意味著無(wú)論在哪里,前向 KL 都會(huì)很大Q(Z)?未能“掩蓋”P(Z)


????????因此,當(dāng)我們確保q(z) > 0?無(wú)論在哪里p ( z) > 0。優(yōu)化的變分分布Q(Z)?被稱(chēng)為“避免零”(當(dāng)密度避免為零時(shí)p?(?Z)為零)。



最小化 Reverse-KL 具有完全相反的行為:

KL?(?Q?|?|?P)=Σzq(?z)記錄q(?z)p?(?z)=乙p?(?z)[日志q(?z)p?(?z)]
?

如果p?(?Z)?=?0,我們必須保證權(quán)重函數(shù)q(?Z)?=?0無(wú)論分母在哪里p?(?Z)?=?0,否則 KL 就會(huì)爆炸。這稱(chēng)為“迫零”:


????????總而言之,最小化前向 KL 會(huì)“拉伸”你的變分分布Q?(Z)覆蓋整個(gè)P(?Z)就像防水布一樣,同時(shí)最大限度地減少反向KL“擠壓”Q?(Z)?在下面?P(?Z)。

????????在機(jī)器學(xué)習(xí)問(wèn)題中使用平均場(chǎng)近似時(shí),請(qǐng)務(wù)必牢記使用反向 KL 的含義。如果我們將單峰分布擬合到多峰分布,我們最終會(huì)得到更多的假陰性(實(shí)際上有概率質(zhì)量P(?Z)我們認(rèn)為沒(méi)有的地方Q?(Z))。

?

4.2 與深度學(xué)習(xí)的聯(lián)系


????????變分方法對(duì)于深度學(xué)習(xí)非常重要。我將在后面的文章中詳細(xì)闡述,但這里有一個(gè)快速劇透:
  1. 深度學(xué)習(xí)非常擅長(zhǎng)使用大量數(shù)據(jù)對(duì)非常大的參數(shù)空間進(jìn)行優(yōu)化(特別是梯度下降)。
  2. 變分貝葉斯為我們提供了一個(gè)框架,通過(guò)它我們可以將統(tǒng)計(jì)推理問(wèn)題重寫(xiě)為優(yōu)化問(wèn)題。
????????深度學(xué)習(xí)和 VB 方法的結(jié)合使我們能夠?qū)O其復(fù)雜的后驗(yàn)分布 進(jìn)行推理。事實(shí)證明,像變分自動(dòng)編碼器這樣的現(xiàn)代技術(shù)優(yōu)化了本文中導(dǎo)出的完全相同的平均場(chǎng)變分下界!

????????感謝您的閱讀,敬請(qǐng)關(guān)注!
http://m.risenshineclean.com/news/58576.html

相關(guān)文章:

  • 彈幕網(wǎng)站開(kāi)發(fā)代碼新聞發(fā)布會(huì)新聞通稿
  • 橋西網(wǎng)站建設(shè)推廣引流渠道有哪些
  • <網(wǎng)站建設(shè)與運(yùn)營(yíng)》最佳bt磁力貓
  • 合肥哪里有做網(wǎng)站抖來(lái)查關(guān)鍵詞搜索排名
  • 蘭州哪有建設(shè)網(wǎng)站的今日熱搜
  • 手機(jī)網(wǎng)站制作報(bào)價(jià)阿里巴巴推廣
  • wordpress幻燈片設(shè)置百度關(guān)鍵詞優(yōu)化軟件怎么樣
  • 建設(shè)彩票網(wǎng)站合法嗎品牌網(wǎng)絡(luò)營(yíng)銷(xiāo)案例
  • 專(zhuān)門(mén)做海外服裝購(gòu)的網(wǎng)站成都seo公司
  • 亞馬遜店鋪網(wǎng)站建設(shè)費(fèi)用開(kāi)源crm系統(tǒng)
  • 電商網(wǎng)購(gòu)網(wǎng)站怎么做百度網(wǎng)頁(yè)版主頁(yè)
  • 商務(wù)網(wǎng)站開(kāi)發(fā)作業(yè)網(wǎng)站seo專(zhuān)員
  • 微幼兒園網(wǎng)站制作淘寶關(guān)鍵詞排名優(yōu)化
  • 上海網(wǎng)站建設(shè)哪小江seo
  • 街道辦的網(wǎng)站由誰(shuí)做的鄭州疫情最新動(dòng)態(tài)
  • ASP圖書(shū)信息管理系統(tǒng)網(wǎng)站建設(shè)百度知道下載
  • 定制化網(wǎng)站開(kāi)發(fā)一般多少錢(qián)網(wǎng)頁(yè)制作三大軟件
  • 云平臺(tái)網(wǎng)站開(kāi)發(fā)百度seo還有前景嗎
  • 360做企業(yè)網(wǎng)站多少錢(qián)百度大搜是什么
  • 松江企業(yè)做網(wǎng)站搜索引擎優(yōu)化包括哪些方面
  • 網(wǎng)絡(luò)營(yíng)銷(xiāo)是什么時(shí)候興起的杭州seo網(wǎng)站排名
  • 蘇州做網(wǎng)站設(shè)計(jì)的公司廣告主資源哪里找
  • 福州網(wǎng)站設(shè)計(jì)知名樂(lè)云seo品牌營(yíng)銷(xiāo)策劃公司排名
  • 廣東佛山搜索引擎營(yíng)銷(xiāo)優(yōu)化策略有哪些
  • 阿里云做網(wǎng)站流程谷歌外貿(mào)seo
  • 做網(wǎng)站的大公司有哪些恢復(fù)正常百度
  • 全國(guó)有哪些做服裝的網(wǎng)站廣東深圳今天最新通知
  • wap手機(jī)網(wǎng)站代碼seo優(yōu)化師是什么
  • 福田做商城網(wǎng)站建設(shè)多少錢(qián)友情鏈接百科
  • 請(qǐng)人制作軟件的網(wǎng)站英雄聯(lián)盟韓國(guó)