網(wǎng)站做分站360收錄批量查詢
聲明:本文章是根據(jù)網(wǎng)上資料,加上自己整理和理解而成,僅為記錄自己學(xué)習(xí)的點(diǎn)點(diǎn)滴滴??赡苡绣e(cuò)誤,歡迎大家指正。
在機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)領(lǐng)域中,似然函數(shù)(Likelihood Function)是一個(gè)至關(guān)重要的概念。它不僅是參數(shù)估計(jì)的基礎(chǔ),而且在模型選擇、模型評(píng)估以及眾多先進(jìn)的算法和技術(shù)中都有著廣泛的應(yīng)用。
1. 似然VS概率
概率和似然是統(tǒng)計(jì)學(xué)中兩個(gè)不同的概念,它們?cè)诟拍钌虾蛻?yīng)用上都有所區(qū)別。以下是通過一個(gè)具體例子來展示這兩者之間的區(qū)別:
1.1? 概率(Probability)
定義:概率是在給定的參數(shù)下,某個(gè)事件發(fā)生的可能性。它是未來事件發(fā)生的度量,通常用介于0和1之間的數(shù)值表示。
例子:假設(shè)我們有一個(gè)標(biāo)準(zhǔn)的六面骰子,每個(gè)面上有1到6的數(shù)字。當(dāng)我們擲骰子時(shí),得到數(shù)字6的概率是:𝑃(數(shù)字=6)=1/6
在這個(gè)例子中,參數(shù)是骰子的面數(shù)(6面),事件是擲出數(shù)字6,概率是已知的,并且是在擲骰子之前就確定的。這里的關(guān)鍵是,概率是在給定參數(shù)(骰子的公平性,即所有面出現(xiàn)概率相同)的情況下,事件發(fā)生的可能性。
1.2? 似然(Likelihood)
定義:似然是在已知觀測(cè)數(shù)據(jù)的情況下,這些數(shù)據(jù)對(duì)于不同參數(shù)值的支持程度。它不是數(shù)據(jù)發(fā)生的概率,而是在給定數(shù)據(jù)時(shí)參數(shù)值的相對(duì)合理性。
現(xiàn)在,假設(shè)我們不確定骰子是否公平,我們通過擲骰子20次,觀察到數(shù)字6出現(xiàn)了5次。我們想要估計(jì)擲出數(shù)字6的真實(shí)概率 𝜃:
- 似然函數(shù)?表示為?𝐿(𝜃∣5次6),是?𝜃?的函數(shù),表示在參數(shù)?𝜃下觀測(cè)數(shù)據(jù)(5次6)的相對(duì)可能性。似然函數(shù)是:?𝐿(𝜃∣5次6)=
。
- 對(duì)𝜃的求解,可用最大似然方法,具體可看后面,這時(shí)求出的𝜃的值不一定是1/6。
對(duì)比上面的例子:
概率函數(shù) 給出了在給定參數(shù)下事件發(fā)生的可能性。在我們的例子中,它告訴我們?cè)诩僭O(shè)骰子公平的情況下,擲出6的概率是 1/6?。
似然函數(shù) 用于在已知觀測(cè)數(shù)據(jù)的情況下,評(píng)估不同參數(shù)值的合理性。在我們的例子中,它幫助我們根據(jù)觀測(cè)到的5次6來估計(jì) 𝜃 的值。
1.3 兩者區(qū)別:
- 概率是已知參數(shù)下事件的度量:在概率中,參數(shù)是已知的,我們計(jì)算的是某個(gè)事件發(fā)生的可能性。
- 似然是已知數(shù)據(jù)下參數(shù)的度量:在似然中,數(shù)據(jù)是已知的,我們?cè)u(píng)估的是不同參數(shù)值對(duì)數(shù)據(jù)的支持程度。
- 概率是絕對(duì)的:概率給出了在給定參數(shù)下事件發(fā)生的確切概率。
- 似然是相對(duì)的:似然比較了在已知數(shù)據(jù)下,不同參數(shù)值的相對(duì)合理性。
總結(jié)來說,概率關(guān)注的是在給定參數(shù)下事件發(fā)生的可能性,而似然關(guān)注的是在給定數(shù)據(jù)下參數(shù)值的合理性。這兩者在統(tǒng)計(jì)分析中扮演著不同的角色。
2. 概率函數(shù)VS似然函數(shù)
2.1 概率函數(shù)(Probability Function, PF)
-
定義:概率函數(shù)是描述隨機(jī)變量取各種可能值的概率。對(duì)于離散隨機(jī)變量,它是一個(gè)定義在所有可能結(jié)果上的函數(shù);對(duì)于連續(xù)隨機(jī)變量,它是一個(gè)概率密度函數(shù)。
-
用途:概率函數(shù)用于計(jì)算在給定參數(shù)下,隨機(jī)變量取特定值或處于某個(gè)區(qū)間的概率。
(1)概率函數(shù)
- 對(duì)于離散型隨機(jī)變量,概率函數(shù)通常指的是概率質(zhì)量函數(shù)(Probability Mass Function, PMF),它給出了隨機(jī)變量取每個(gè)可能值的概率.
-
對(duì)于離散隨機(jī)變量?X,概率函數(shù)可以表示為?
,滿足以下性質(zhì):。
- 非負(fù)性:對(duì)于所有的?𝑥x,有?𝑃(𝑋=𝑥)≥0。
- 歸一性:所有可能的?𝑥x?上的概率之和為1,即:?
- 對(duì)于連續(xù)隨機(jī)變量?X
(2) 概率密度函數(shù)(Probability Density Function, PDF)
- 概率密度函數(shù)是用于描述連續(xù)型隨機(jī)變量在某個(gè)值或某個(gè)區(qū)間內(nèi)取值的概率的函數(shù)。
- 對(duì)于連續(xù)型隨機(jī)變量?X,其概率密度函數(shù)
表示為?
,其中?
?是累積分布函數(shù)滿足以下性質(zhì):
- 非負(fù)性:對(duì)于所有的?𝑥,有?𝑓(𝑥)≥0。
- 歸一性:𝑋的整個(gè)取值范圍內(nèi),概率密度函數(shù)的積分總和為1,即:
2.2? 似然函數(shù)(Likelihood Function, LF)
-
定義:似然函數(shù)是在已知觀測(cè)數(shù)據(jù)的情況下,這些數(shù)據(jù)對(duì)于不同參數(shù)值的相對(duì)可能性。它是參數(shù)的函數(shù),用于估計(jì)參數(shù)。
-
用途:似然函數(shù)用于參數(shù)估計(jì),特別是在最大似然估計(jì)中,通過找到使似然函數(shù)最大化的參數(shù)值。
-
數(shù)學(xué)表示:對(duì)于簡(jiǎn)單隨機(jī)樣本,似然函數(shù)可以表示為觀測(cè)數(shù)據(jù)的概率函數(shù)的乘積:
其中,𝜃 是參數(shù),
是觀測(cè)值,
是給定參數(shù) 𝜃下第 𝑖個(gè)觀測(cè)值的概率密度函數(shù)或概率質(zhì)量函數(shù)。
2.3 兩者區(qū)別:
- 參數(shù)與數(shù)據(jù)的角色:在概率函數(shù)中,參數(shù)是已知的,數(shù)據(jù)是隨機(jī)的;而在似然函數(shù)中,數(shù)據(jù)是已知的,參數(shù)是未知的。
- 目的:概率函數(shù)用于計(jì)算特定事件發(fā)生的概率,似然函數(shù)用于估計(jì)模型參數(shù)。
- 形式:概率函數(shù)通常與特定的概率分布相關(guān)聯(lián)(如正態(tài)分布、二項(xiàng)分布等),而似然函數(shù)是觀測(cè)數(shù)據(jù)對(duì)參數(shù)的函數(shù)。
例子:假設(shè)我們有一個(gè)骰子,并且想知道擲出6點(diǎn)的概率 𝜃。
- 概率函數(shù):如果我們假設(shè)骰子是公平的,那么擲出6點(diǎn)的概率函數(shù)是?𝑃(6點(diǎn))=𝜃=1/6。
- 似然函數(shù):若我們擲了20次,觀察到5次6點(diǎn),似然函數(shù)將是?
。我們通過最大化這個(gè)似然函數(shù)來估計(jì)?𝜃 的值。
3.最大似然估計(jì)
極大似然估計(jì)(Maximum Likelihood Estimation, MLE)是一種在已知觀測(cè)數(shù)據(jù)的情況下估計(jì)概率模型參數(shù)的方法。它基于以下原則:
-
似然函數(shù):首先定義似然函數(shù),它是在給定參數(shù)值
?下觀測(cè)數(shù)據(jù)
的概率。對(duì)于獨(dú)立同分布的觀測(cè)數(shù)據(jù)
,似然函數(shù)可以表示為所有觀測(cè)數(shù)據(jù)
的概率密度函數(shù)(對(duì)于連續(xù)型隨機(jī)變量)或概率質(zhì)量函數(shù)(對(duì)于離散型隨機(jī)變量)的乘積:
-
最大化似然:然后,選擇使似然函數(shù)達(dá)到最大值的參數(shù)
。這些參數(shù)值被稱為極大似然估計(jì)值。
-
對(duì)數(shù)轉(zhuǎn)換:為了簡(jiǎn)化計(jì)算,通常對(duì)似然函數(shù)取對(duì)數(shù),因?yàn)閷?duì)數(shù)是單調(diào)函數(shù),可以將乘積轉(zhuǎn)換為求和:
-
求解參數(shù):對(duì)對(duì)數(shù)似然函數(shù)求導(dǎo),并找到導(dǎo)數(shù)為零的點(diǎn),這通常涉及到數(shù)值優(yōu)化技術(shù)。
-
統(tǒng)計(jì)性質(zhì):在大樣本情況下,極大似然估計(jì)具有一些良好的統(tǒng)計(jì)性質(zhì),如一致性(估計(jì)值隨著樣本量的增加而趨近于真實(shí)值)和漸近正態(tài)性(估計(jì)量的分布趨近于正態(tài)分布)。
仍然是上面的例子:現(xiàn)在,假設(shè)我們不確定骰子是否公平,我們通過擲骰子20次,觀察到數(shù)字6出現(xiàn)了5次。我們想要估計(jì)擲出數(shù)字6的真實(shí)概率 𝜃:
寫出似然函數(shù):根據(jù)觀測(cè)結(jié)果(例如,擲20次得到5次6),寫出似然函數(shù):
取對(duì)數(shù):為了簡(jiǎn)化計(jì)算,通常對(duì)似然函數(shù)取對(duì)數(shù),得到對(duì)數(shù)似然函數(shù):
求導(dǎo)數(shù):對(duì) 𝜃?求導(dǎo),并找到導(dǎo)數(shù)為零的點(diǎn),這通常通過設(shè)置導(dǎo)數(shù)等于零并解方程來完成:?
解方程:解上述導(dǎo)數(shù)等于零的方程,得到 𝜃 的值:
,可得
得到最大似然估計(jì):解得
或 0.25,這就是擲出數(shù)字6的最大似然估計(jì)概率。
如果骰子是完全公平的,我們期望 θ 接近 1/6,但由于我們的樣本數(shù)據(jù),我們得到的估計(jì)值是 1/4。這可能表明骰子存在偏差,或者僅僅是由于隨機(jī)變異。
4. 似然比
似然比(Likelihood Ratio)是統(tǒng)計(jì)學(xué)中用于比較兩個(gè)統(tǒng)計(jì)模型對(duì)同一數(shù)據(jù)集的擬合優(yōu)度的量。它是兩個(gè)似然函數(shù)值的比率,通常用于模型選擇、假設(shè)檢驗(yàn)和參數(shù)估計(jì)中。
定義:
似然比 𝜆λ 可以定義為兩個(gè)模型的似然函數(shù)值的比值:? 其中,
和
分別是參數(shù) 𝜃1和 𝜃2? 下觀測(cè)數(shù)據(jù) 𝑋 的似然函數(shù)值。
應(yīng)用:
- 模型選擇:在比較兩個(gè)模型時(shí),似然比可以用來評(píng)估哪個(gè)模型對(duì)數(shù)據(jù)的擬合更好。
- 似然比檢驗(yàn):一種統(tǒng)計(jì)假設(shè)檢驗(yàn)方法,用于比較零假設(shè)(𝐻0H?)和備擇假設(shè)(𝐻1?)下的似然函數(shù)值。
例子:假設(shè)我們有一個(gè)簡(jiǎn)單的數(shù)據(jù)集,由10個(gè)觀測(cè)值組成,我們想要比較以下兩個(gè)模型:
- 模型1(零假設(shè)?𝐻0?): 假設(shè)觀測(cè)值來自均值為
?,標(biāo)準(zhǔn)差為?
的正態(tài)分布。
- 模型2(備擇假設(shè)?𝐻1?): 假設(shè)觀測(cè)值來自均值為
?,標(biāo)準(zhǔn)差為
的正態(tài)分布。
假設(shè)我們觀測(cè)到的數(shù)據(jù)是 X={2,3,4,5,6,7,8,9,10,11}。
計(jì)算似然函數(shù):首先,我們?yōu)槊總€(gè)模型計(jì)算似然函數(shù)。假設(shè)
? 和
是已知的,我們只估計(jì)均值 𝜇。
模型1的似然函數(shù)(假設(shè)
?):
?
模型2的似然函數(shù)(假設(shè)
?):
計(jì)算似然比:
評(píng)估似然比:如果似然比 𝜆 接近1,說明兩個(gè)模型對(duì)數(shù)據(jù)的擬合程度相似;如果 𝜆 顯著大于1,模型1可能更合適;如果 𝜆顯著小于1,模型2可能更合適。
似然比檢驗(yàn):在實(shí)際應(yīng)用中,我們通常對(duì)數(shù)化似然比,并將其與特定的統(tǒng)計(jì)量進(jìn)行比較,以決定是否拒絕零假設(shè)。
通過這個(gè)例子,我們可以看到似然比如何用于比較不同模型對(duì)同一數(shù)據(jù)集的擬合優(yōu)度,并在模型選擇和假設(shè)檢驗(yàn)中發(fā)揮作用。