中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

做班級(jí)網(wǎng)站的實(shí)訓(xùn)報(bào)告網(wǎng)站怎么才能被百度收錄

做班級(jí)網(wǎng)站的實(shí)訓(xùn)報(bào)告,網(wǎng)站怎么才能被百度收錄,網(wǎng)站百度收錄秒收方法,公司做網(wǎng)站的費(fèi)用用途寫什么有監(jiān)督 一、線性回歸(Linear Regression) 1. 算法原理 線性回歸(Linear Regression)是一種基本的回歸算法,它通過擬合一個(gè)線性模型來預(yù)測連續(xù)型目標(biāo)變量。線性回歸模型的基本形式是:y w1 * x1 w2 * x2 … wn * …

有監(jiān)督

一、線性回歸(Linear Regression)

1. 算法原理

線性回歸(Linear Regression)是一種基本的回歸算法,它通過擬合一個(gè)線性模型來預(yù)測連續(xù)型目標(biāo)變量。線性回歸模型的基本形式是:y = w1 * x1 + w2 * x2 + … + wn * xn + b,其中y是目標(biāo)變量,x1到xn是特征,w1到wn是模型參數(shù)(權(quán)重),b是截距項(xiàng)。線性回歸的目標(biāo)是找到一組權(quán)重和截距,使得預(yù)測值與實(shí)際值之間的誤差最小。為了實(shí)現(xiàn)這一目標(biāo),線性回歸使用了最小二乘法(Least Squares Method)來最小化預(yù)測值與實(shí)際值之間的平方誤差。

2.優(yōu)缺點(diǎn)

優(yōu)點(diǎn):
a) 算法簡單,容易理解和實(shí)現(xiàn)。
b) 計(jì)算復(fù)雜度低,訓(xùn)練速度快。
c) 可解釋性強(qiáng),模型參數(shù)有直觀的物理意義。
d) 可以通過正則化方法(如Lasso和Ridge)來避免過擬合。

3.缺點(diǎn):

a) 線性回歸假設(shè)特征與目標(biāo)之間存在線性關(guān)系,對(duì)于非線性關(guān)系的數(shù)據(jù)擬合效果較差。
b) 對(duì)異常值(outliers)敏感,異常值可能導(dǎo)致模型擬合效果較差。
c) 對(duì)多重共線性問題(特征間高度相關(guān))敏感,可能導(dǎo)致模型不穩(wěn)定。
3.適用場景

4.適用場景:

a) 預(yù)測連續(xù)型目標(biāo)變量,如房價(jià)、銷售額等。
b) 數(shù)據(jù)特征與目標(biāo)變量之間存在線性關(guān)系或近似線性關(guān)系。
c) 數(shù)據(jù)量較大,需要快速訓(xùn)練模型時(shí)。
d) 需要對(duì)模型進(jìn)行解釋時(shí),例如分析各個(gè)特征對(duì)目標(biāo)變量的貢獻(xiàn)程度。
總之,線性回歸是一種簡單有效的回歸算法,在實(shí)際應(yīng)用中具有較廣泛的適用性。然而,當(dāng)數(shù)據(jù)之間存在非線性關(guān)系或者特征之間存在多重共線性時(shí),線性回歸的表現(xiàn)可能會(huì)受到影響。在這種情況下,可以考慮使用其他更復(fù)雜的回歸方法。

二、邏輯回歸(Logistic Regression)

1. 算法原理

邏輯回歸(Logistic Regression)是一種廣泛應(yīng)用于分類問題的線性模型。雖然它的名字中包含“回歸”,但實(shí)際上它是一種分類算法。邏輯回歸通過sigmoid函數(shù)(S型函數(shù))將線性模型的輸出轉(zhuǎn)換為概率值,用于表示數(shù)據(jù)屬于某一類的概率。sigmoid函數(shù)的公式為:f(z) = 1 / (1 + exp(-z))。邏輯回歸模型的目標(biāo)是找到一組權(quán)重和截距,使得預(yù)測的概率與實(shí)際標(biāo)簽之間的誤差最小。為了實(shí)現(xiàn)這一目標(biāo),邏輯回歸使用了極大似然估計(jì)(Maximum Likelihood Estimation,MLE)來最大化觀測數(shù)據(jù)的對(duì)數(shù)似然。
2.優(yōu)缺點(diǎn)

2.優(yōu)缺點(diǎn)

優(yōu)點(diǎn):
a) 算法簡單,容易理解和實(shí)現(xiàn)。
b) 輸出結(jié)果具有概率意義,方便進(jìn)行概率估計(jì)和置信度分析。
c) 可以通過正則化方法(如L1和L2正則化)來避免過擬合。
d) 可解釋性強(qiáng),模型參數(shù)有直觀的物理意義。
缺點(diǎn):
a) 邏輯回歸假設(shè)特征與目標(biāo)之間存在線性關(guān)系,對(duì)于非線性關(guān)系的數(shù)據(jù)分類效果較差。
b) 對(duì)異常值敏感,異常值可能導(dǎo)致模型擬合效果較差。
c) 只能處理二分類問題,對(duì)于多分類問題需要進(jìn)行擴(kuò)展(如one-vs-rest或one-vs-one方法)。

3.適用場景

邏輯回歸適用于以下場景:
a) 二分類問題,如垃圾郵件分類、客戶流失預(yù)測等。
b) 數(shù)據(jù)特征與目標(biāo)變量之間存在線性關(guān)系或近似線性關(guān)系。
c) 需要對(duì)模型進(jìn)行解釋時(shí),例如分析各個(gè)特征對(duì)目標(biāo)變量的貢獻(xiàn)程度。
邏輯回歸雖然簡單,但在許多實(shí)際問題中表現(xiàn)出良好的分類性能。然而,當(dāng)數(shù)據(jù)之間存在非線性關(guān)系時(shí),可以考慮使用其他更復(fù)雜的分類方法。

三、支持向量機(jī)(svn)

1. 算法原理

支持向量機(jī)(Support Vector Machine,SVM)是一種廣泛應(yīng)用于分類和回歸問題的機(jī)器學(xué)習(xí)算法。在分類問題中,SVM的目標(biāo)是找到一個(gè)超平面,使得兩個(gè)類別之間的間隔最大化。這個(gè)間隔被稱為“最大間隔”,而支持向量機(jī)的名稱來源于構(gòu)成這個(gè)最大間隔邊界的數(shù)據(jù)點(diǎn),被稱為“支持向量”。
為了解決非線性問題,支持向量機(jī)引入了核函數(shù)(Kernel Function)。核函數(shù)可以將原始特征空間映射到一個(gè)更高維度的特征空間,使得原本線性不可分的數(shù)據(jù)在新的特征空間中變得線性可分。常用的核函數(shù)包括:線性核、多項(xiàng)式核、高斯徑向基核(Radial Basis Function,RBF)等。

2.優(yōu)缺點(diǎn)

優(yōu)點(diǎn):
a) 在高維數(shù)據(jù)和小樣本數(shù)據(jù)上表現(xiàn)良好。
b) 可以處理非線性問題,通過選擇合適的核函數(shù)可以提高分類性能。
c) 具有稀疏性,只有支持向量對(duì)模型產(chǎn)生影響,降低了計(jì)算復(fù)雜度。
缺點(diǎn):
a) 對(duì)于大規(guī)模數(shù)據(jù)集和高維數(shù)據(jù),訓(xùn)練速度較慢。
b) 需要選擇合適的核函數(shù)和調(diào)整核函數(shù)參數(shù),對(duì)參數(shù)敏感。
c) 對(duì)于多分類問題需要進(jìn)行擴(kuò)展,如one-vs-rest或one-vs-one方法。

3.適用場景

支持向量機(jī)適用于以下場景:
a) 二分類問題,如手寫數(shù)字識(shí)別、人臉識(shí)別等。
b) 數(shù)據(jù)量較小或中等規(guī)模的數(shù)據(jù)集。
c) 數(shù)據(jù)具有非線性關(guān)系或需要在高維空間進(jìn)行分類。
支持向量機(jī)在許多實(shí)際問題中表現(xiàn)出良好的分類性能,尤其是在高維數(shù)據(jù)和小樣本數(shù)據(jù)上。然而,在大規(guī)模數(shù)據(jù)集和高維數(shù)據(jù)上,訓(xùn)練速度較慢,可能需要考慮使用其他更高效的分類方法。

四、決策樹(Decision Tree)

1. 算法原理

決策樹(Decision Tree)是一種常見的機(jī)器學(xué)習(xí)算法,用于解決分類和回歸問題。決策樹以樹狀結(jié)構(gòu)表示決策過程,通過遞歸地將數(shù)據(jù)集劃分為不同的子集,每個(gè)子集對(duì)應(yīng)于一個(gè)樹節(jié)點(diǎn)。在每個(gè)節(jié)點(diǎn)上,根據(jù)特征值選擇一個(gè)最佳的劃分方式。常用的劃分方式包括信息增益、信息增益比、基尼指數(shù)等。劃分過程一直進(jìn)行到達(dá)到預(yù)先設(shè)定的停止條件,如節(jié)點(diǎn)內(nèi)的數(shù)據(jù)數(shù)量小于某個(gè)閾值或樹的深度達(dá)到限制等。

2.優(yōu)缺點(diǎn)

優(yōu)點(diǎn):
a) 模型具有良好的可解釋性,容易理解和實(shí)現(xiàn)。 b) 可以處理缺失值和異常值,對(duì)數(shù)據(jù)的預(yù)處理要求較低。 c) 適用于多種數(shù)據(jù)類型,包括離散型和連續(xù)型特征。
缺點(diǎn):
a) 容易產(chǎn)生過擬合現(xiàn)象,需要采用剪枝策略來防止過擬合。 b) 對(duì)于非線性關(guān)系的數(shù)據(jù)建模能力有限。 c) 決策樹的構(gòu)建過程可能受到局部最優(yōu)解的影響,導(dǎo)致全局最優(yōu)解無法達(dá)到。

3.適用場景

決策樹適用于以下場景:
a) 數(shù)據(jù)具有混合類型的特征,如離散型和連續(xù)型。
b) 需要解釋模型的決策過程,如信貸審批、醫(yī)療診斷等。
c) 數(shù)據(jù)集中存在缺失值或異常值。
決策樹在很多實(shí)際應(yīng)用中表現(xiàn)出較好的性能,尤其是在具有混合數(shù)據(jù)類型特征的問題中。然而,決策樹容易過擬合,需要采用剪枝策略來防止過擬合,同時(shí)對(duì)非線性關(guān)系建模能力有限。在這種情況下,可以考慮使用隨機(jī)森林等基于決策樹的集成方法。
在這里插入圖片描述
三大經(jīng)典決策樹算法最主要的區(qū)別是其特征選擇的準(zhǔn)則不同。ID3算法選擇特征的依據(jù)是信息增益、C4.5是信息增益比,而CART則是基尼指數(shù)。作為一種基礎(chǔ)的分類和回歸方法,決策樹可以有以下兩種理解方法:可以認(rèn)為是if-then的集合,也可以認(rèn)為是定義在特征空間與類空間上的條件概率分布。
在這里插入圖片描述

4.ID3算法

ID3 算法是建立在奧卡姆剃刀(用較少的東西,同樣可以做好事情)的基礎(chǔ)上:越是小型的決策樹越優(yōu)于大的決策樹。

思想

從信息論的知識(shí)中我們知道:期望信息越小,信息熵越大,從而樣本純度越低。ID3 算法的核心思想就是以信息增益來度量特征選擇,選擇信息增益最大的特征進(jìn)行分裂。算法采用自頂向下的貪婪搜索遍歷可能的決策樹空間(C4.5 也是貪婪搜索)。

具體方法是:
1)從根結(jié)點(diǎn)(root node)開始,對(duì)結(jié)點(diǎn)計(jì)算所有可能的特征的信息增益,選擇信息增益最大的特征作為結(jié)點(diǎn)的特征。
2)由該特征的不同取值建立子節(jié)點(diǎn),再對(duì)子結(jié)點(diǎn)遞歸地調(diào)用以上方法,構(gòu)建決策樹;直到所有特征的信息增益均很小或沒有特征可以選擇為止;
3)最后得到一個(gè)決策樹。
算法步驟:
在這里插入圖片描述

缺點(diǎn)

ID3 沒有剪枝策略,容易過擬合;
ID3采用信息增益大的特征優(yōu)先建立決策樹的節(jié)點(diǎn),信息增益準(zhǔn)則對(duì)可取值數(shù)目較多的特征有所偏好
只能用于處理離散分布的特征,沒有考慮連續(xù)特征
沒有考慮缺失值。

5.C4.5算法

ID3算法有四個(gè)主要的不足,一是不能處理連續(xù)特征,第二個(gè)就是用信息增益作為標(biāo)準(zhǔn)容易偏向于取值較多的特征,最后兩個(gè)是缺失值處理的問和過擬合問題。昆蘭在C4.5算法中改進(jìn)了上述4個(gè)問題:
在這里插入圖片描述
在這里插入圖片描述

決策樹C4.5算法的局限性

C4.5雖然改進(jìn)或者改善了ID3算法的幾個(gè)主要的問題,仍然有優(yōu)化的空間。
1)由于決策樹算法非常容易過擬合,因此對(duì)于生成的決策樹必須要進(jìn)行剪枝。剪枝的算法有非常多,C4.5的剪枝方法有優(yōu)化的空間。思路主要是兩種,一種是預(yù)剪枝,即在生成決策樹的時(shí)候就決定是否剪枝。另一個(gè)是后剪枝,即先生成決策樹,再通過交叉驗(yàn)證來剪枝。
2)C4.5生成的是多叉樹,即一個(gè)父節(jié)點(diǎn)可以有多個(gè)節(jié)點(diǎn)。很多時(shí)候,在計(jì)算機(jī)中二叉樹模型會(huì)比多叉樹運(yùn)算效率高。如果采用二叉樹,可以提高效率。
3)C4.5只能用于分類,如果能將決策樹用于回歸的話可以擴(kuò)大它的使用范圍。
4)C4.5由于使用了熵模型,里面有大量的耗時(shí)的對(duì)數(shù)運(yùn)算,如果是連續(xù)值還有大量的排序運(yùn)算。如果能夠加以模型簡化可以減少運(yùn)算強(qiáng)度但又不犧牲太多準(zhǔn)確性的話,那就更好了。

6.CART

在ID3算法中我們使用了信息增益來選擇特征,信息增益大的優(yōu)先選擇。在C4.5算法中,采用了信息增益比來選擇特征,以減少信息增益容易選擇特征值多的特征的問題。但是無論是ID3還是C4.5,都是基于信息論的熵模型的,這里面會(huì)涉及大量的對(duì)數(shù)運(yùn)算。能不能簡化模型同時(shí)也不至于完全丟失熵模型的優(yōu)點(diǎn)呢?有!CART分類樹算法使用基尼系數(shù)來代替信息增益比,基尼系數(shù)代表了模型的不純度,基尼系數(shù)越小,則不純度越低,特征越好。這和信息增益(比)是相反的。
ID3 和 C4.5 雖然在對(duì)訓(xùn)練樣本集的學(xué)習(xí)中可以盡可能多地挖掘信息,但是其生成的決策樹分支、規(guī)模都比較大,CART 算法的二分法可以簡化決策樹的規(guī)模,提高生成決策樹的效率。

思想

CART 包含的基本過程有分裂,剪枝和樹選擇。
分裂:分裂過程是一個(gè)二叉遞歸劃分過程,其輸入和預(yù)測特征既可以是連續(xù)型的也可以是離散型的,CART 沒有停止準(zhǔn)則,會(huì)一直生長下去;
剪枝:采用代價(jià)復(fù)雜度剪枝,從最大樹開始,每次選擇訓(xùn)練數(shù)據(jù)熵對(duì)整體性能貢獻(xiàn)最小的那個(gè)分裂節(jié)點(diǎn)作為下一個(gè)剪枝對(duì)象,直到只剩下根節(jié)點(diǎn)。CART 會(huì)產(chǎn)生一系列嵌套的剪枝樹,需要從中選出一顆最優(yōu)的決策樹;
樹選擇:用單獨(dú)的測試集評(píng)估每棵剪枝樹的預(yù)測性能(也可以用交叉驗(yàn)證)。

CART 在 C4.5 的基礎(chǔ)上進(jìn)行了很多提升。

C4.5 為多叉樹,運(yùn)算速度慢,CART 為二叉樹,運(yùn)算速度快;
C4.5 只能分類,CART 既可以分類也可以回歸;
CART 使用 Gini 系數(shù)作為變量的不純度量,減少了大量的對(duì)數(shù)運(yùn)算;
CART 采用代理測試來估計(jì)缺失值,而 C4.5 以不同概率劃分到不同節(jié)點(diǎn)中;
CART 采用“基于代價(jià)復(fù)雜度剪枝”方法進(jìn)行剪枝,而 C4.5 采用悲觀剪枝方法。

對(duì)于CART分類樹連續(xù)值的處理問題,其思想和C4.5是相同的,都是將連續(xù)的特征離散化。 唯一的區(qū)別在于在選擇劃分點(diǎn)時(shí)的度量方式不同,C4.5使用的是信息增益比,則CART分類樹使用的是基尼系數(shù)。
在這里插入圖片描述
??對(duì)于CART分類樹離散值的處理問題,采用的思路是不停的二分離散特征。
????ID3或者C4.5,如果某個(gè)特征A被選取建立決策樹節(jié)點(diǎn),如果它有A1,A2,A3三種類別,我們會(huì)在決策樹上一下建立一個(gè)三叉的節(jié)點(diǎn)。這樣導(dǎo)致決策樹是多叉樹。但是CART分類樹使用的方法不同,他采用的是不停的二分,還是這個(gè)例子,CART分類樹會(huì)考慮把A分成{A1}和{A2,A3}, {A2}和{A1,A3}, {A3}和{A1,A2}三種情況,找到基尼系數(shù)最小的組合,比如{A2}和{A1,A3},然后建立二叉樹節(jié)點(diǎn),一個(gè)節(jié)點(diǎn)是A2對(duì)應(yīng)的樣本,另一個(gè)節(jié)點(diǎn)是{A1,A3}對(duì)應(yīng)的節(jié)點(diǎn)。同時(shí),由于這次沒有把特征A的取值完全分開,后面我們還有機(jī)會(huì)在子節(jié)點(diǎn)繼續(xù)選擇到特征A來劃分A1和A3。這和ID3或者C4.5不同,在ID3或者C4.5的一棵子樹中,離散特征只會(huì)參與一次節(jié)點(diǎn)的建立。

CART分類樹建立算法的具體流程

算法輸入是訓(xùn)練集D,基尼系數(shù)的閾值,樣本個(gè)數(shù)閾值。
????輸出是決策樹T。
????我們的算法從根節(jié)點(diǎn)開始,用訓(xùn)練集遞歸的建立CART樹。

對(duì)于當(dāng)前節(jié)點(diǎn)的數(shù)據(jù)集為D,如果樣本個(gè)數(shù)小于閾值或者沒有特征,則返回決策子樹,當(dāng)前節(jié)點(diǎn)停止遞歸。
計(jì)算樣本集D的基尼系數(shù),如果基尼系數(shù)小于閾值,則返回決策樹子樹,當(dāng)前節(jié)點(diǎn)停止遞歸。
計(jì)算當(dāng)前節(jié)點(diǎn)現(xiàn)有的各個(gè)特征的各個(gè)特征值對(duì)數(shù)據(jù)集D的基尼系數(shù),對(duì)于離散值和連續(xù)值的處理方法和基尼系數(shù)的計(jì)算見第二節(jié)。缺失值的處理方法和上篇的C4.5算法里描述的相同。
在計(jì)算出來的各個(gè)特征的各個(gè)特征值對(duì)數(shù)據(jù)集D的基尼系數(shù)中,選擇基尼系數(shù)最小的特征A和對(duì)應(yīng)的特征值a。根據(jù)這個(gè)最優(yōu)特征和最優(yōu)特征值,把數(shù)據(jù)集劃分成兩部分D1和D2,同時(shí)建立當(dāng)前節(jié)點(diǎn)的左右節(jié)點(diǎn),做節(jié)點(diǎn)的數(shù)據(jù)集D為D1,右節(jié)點(diǎn)的數(shù)據(jù)集D為D2.
對(duì)左右的子節(jié)點(diǎn)遞歸的調(diào)用1-4步,生成決策樹。
????對(duì)于生成的決策樹做預(yù)測的時(shí)候,假如測試集里的樣本A落到了某個(gè)葉子節(jié)點(diǎn),而節(jié)點(diǎn)里有多個(gè)訓(xùn)練樣本。則對(duì)于A的類別預(yù)測采用的是這個(gè)葉子節(jié)點(diǎn)里概率最大的類別。

CART回歸樹建立算法

CART回歸樹和CART分類樹的建立算法大部分是類似的,所以這里我們只討論CART回歸樹和CART分類樹的建立算法不同的地方。

首先,我們要明白,什么是回歸樹,什么是分類樹。兩者的區(qū)別在于樣本輸出,如果樣本輸出是離散值,那么這是一顆分類樹。如果樣本輸出是連續(xù)值,那么那么這是一顆回歸樹。

除了概念的不同,CART回歸樹和CART分類樹的建立和預(yù)測的區(qū)別主要有下面兩點(diǎn):

連續(xù)值的處理方法不同
決策樹建立后做預(yù)測的方式不同。

對(duì)于連續(xù)值的處理,我們知道CART分類樹采用的是用基尼系數(shù)的大小來度量特征的各個(gè)劃分點(diǎn)的優(yōu)劣情況。這比較適合分類模型,但是對(duì)于回歸模型,我們使用了常見的和方差的度量方式,CART回歸樹的度量目標(biāo)是,對(duì)于任意劃分特征A,對(duì)應(yīng)的任意劃分點(diǎn)s兩邊劃分成的數(shù)據(jù)集D1和D2,求出使D1和D2各自集合的均方差最小,同時(shí)D1和D2的均方差之和最小所對(duì)應(yīng)的特征和特征值劃分點(diǎn)。表達(dá)式為:
在這里插入圖片描述
?其中,c1為D1數(shù)據(jù)集的樣本輸出均值,c2為D2數(shù)據(jù)集的樣本輸出均值。

對(duì)于決策樹建立后做預(yù)測的方式,上面講到了CART分類樹采用葉子節(jié)點(diǎn)里概率最大的類別作為當(dāng)前節(jié)點(diǎn)的預(yù)測類別。而回歸樹輸出不是類別,它采用的是用最終葉子的均值或者中位數(shù)來預(yù)測輸出結(jié)果。

除了上面提到了以外,CART回歸樹和CART分類樹的建立算法和預(yù)測沒有什么區(qū)別。

五、K近鄰算法( KNN)

1. 算法原理

K近鄰(K-Nearest Neighbors, KNN)算法是一種基于實(shí)例的學(xué)習(xí)方法,用于分類和回歸任務(wù)。對(duì)于一個(gè)給定的輸入樣本,KNN算法首先找到訓(xùn)練集中與之最接近的K個(gè)樣本(即K個(gè)鄰居),然后根據(jù)這K個(gè)鄰居的標(biāo)簽(或輸出值)來預(yù)測輸入樣本的類別(或輸出值)。
對(duì)于分類任務(wù),通常采用投票法,將K個(gè)鄰居中出現(xiàn)次數(shù)最多的類別作為預(yù)測結(jié)果;對(duì)于回歸任務(wù),通常采用平均法,將K個(gè)鄰居的輸出值求平均作為預(yù)測結(jié)果。

2.優(yōu)缺點(diǎn)

優(yōu)點(diǎn):
a) 算法簡單,易于實(shí)現(xiàn)。
b) 無需訓(xùn)練過程,適應(yīng)性強(qiáng)。
c) 對(duì)于非線性數(shù)據(jù)具有較好的分類性能。
d) 可用于多分類問題。
缺點(diǎn):
a) 計(jì)算量大,特別是當(dāng)訓(xùn)練集較大時(shí)。
b) 對(duì)噪聲數(shù)據(jù)和異常值敏感。
c) 需要事先確定合適的K值和距離度量方法。
d) 沒有考慮特征權(quán)重,可能影響預(yù)測性能。

3.適用場景

K近鄰算法適用于以下場景:
a) 數(shù)據(jù)集規(guī)模較小,計(jì)算資源充足。
b) 數(shù)據(jù)集的類別邊界不規(guī)則,呈現(xiàn)非線性分布。
c) 特征之間的相關(guān)性較弱。
d) 對(duì)實(shí)時(shí)性要求較高的場景。
KNN在圖像識(shí)別、文本分類、推薦系統(tǒng)等領(lǐng)域有廣泛應(yīng)用。

六、樸素貝葉斯分類器(Naive Bayes)

1. 算法原理

樸素貝葉斯(Naive Bayes)是一種基于貝葉斯定理的概率分類器,它假設(shè)特征之間相互獨(dú)立。樸素貝葉斯分類器首先計(jì)算給定樣本屬于每個(gè)類別的后驗(yàn)概率,然后將后驗(yàn)概率最大的類別作為預(yù)測結(jié)果。

2.優(yōu)缺點(diǎn)

優(yōu)點(diǎn):
a) 算法簡單,易于實(shí)現(xiàn)。
b) 訓(xùn)練速度快,可在線更新模型。
c) 對(duì)于特征維度較高的數(shù)據(jù)具有較好的性能。
d) 可以處理多分類問題。
缺點(diǎn):
a) 假設(shè)特征之間相互獨(dú)立,實(shí)際應(yīng)用中這個(gè)假設(shè)可能不成立。
b) 對(duì)于連續(xù)型特征需要離散化處理。
c) 需要平滑處理來避免概率為0的情況。
d) 當(dāng)特征關(guān)聯(lián)性較強(qiáng)時(shí),分類性能可能會(huì)受到影響。

3.適用場景

樸素貝葉斯分類器適用于以下場景:
a) 數(shù)據(jù)集特征維度較高,且特征之間關(guān)聯(lián)性較弱。
b) 對(duì)訓(xùn)練時(shí)間和模型實(shí)時(shí)更新有較高要求的場景。
c) 數(shù)據(jù)集中有缺失值的情況。
樸素貝葉斯分類器在自然語言處理、文本分類、垃圾郵件過濾、情感分析等領(lǐng)域有廣泛應(yīng)用。

七、神經(jīng)網(wǎng)絡(luò)(neural networks,NN)

1. 算法原理

神經(jīng)網(wǎng)絡(luò)是一種模仿生物神經(jīng)系統(tǒng)的計(jì)算模型,由多個(gè)相互連接的神經(jīng)元組成。神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)包括輸入層、隱藏層和輸出層。神經(jīng)網(wǎng)絡(luò)通過前向傳播計(jì)算預(yù)測值,利用反向傳播算法調(diào)整權(quán)重,以最小化損失函數(shù)。

2.優(yōu)缺點(diǎn)

a) 優(yōu)點(diǎn): i. 神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的表達(dá)能力,能夠逼近復(fù)雜的非線性函數(shù)。 ii. 可以自動(dòng)學(xué)習(xí)特征表示,減少特征工程的工作量。 iii. 可以通過多層結(jié)構(gòu)和大量神經(jīng)元實(shí)現(xiàn)深度學(xué)習(xí),提高模型性能。
b) 缺點(diǎn): i. 訓(xùn)練過程可能較慢,需要大量計(jì)算資源。 ii. 對(duì)超參數(shù)的選擇敏感,需要進(jìn)行調(diào)優(yōu)。 iii. 可解釋性相對(duì)較差。

3.適用場景

神經(jīng)網(wǎng)絡(luò)適用于以下場景:
a) 需要學(xué)習(xí)復(fù)雜模式和高維數(shù)據(jù)表示的問題。
b) 在計(jì)算資源充足的情況下,需要較高預(yù)測性能的場景。
神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺、自然語言處理、語音識(shí)別、推薦系統(tǒng)等領(lǐng)域有廣泛應(yīng)用。

八、Lasso回歸與Ridge回歸

1. 算法原理

Lasso回歸(Least Absolute Shrinkage and Selection Operator)和Ridge回歸(嶺回歸)都是線性回歸的正則化版本。Lasso回歸在損失函數(shù)中加入了L1正則化項(xiàng),促使部分系數(shù)變?yōu)?,實(shí)現(xiàn)特征選擇;Ridge回歸在損失函數(shù)中加入了L2正則化項(xiàng),減小系數(shù)的大小,防止過擬合。

2.優(yōu)缺點(diǎn)

優(yōu)點(diǎn):
i. 降低過擬合風(fēng)險(xiǎn)。
ii. Lasso回歸可以實(shí)現(xiàn)特征選擇。
缺點(diǎn):
i. 對(duì)于高度相關(guān)的特征,Lasso回歸可能選擇其中一些而完全忽略其他特征。
ii. Ridge回歸不能實(shí)現(xiàn)特征選擇。

3.適用場景

Lasso回歸和Ridge回歸適用于以下場景:
a) 存在多重共線性的數(shù)據(jù)。
b) 需要進(jìn)行特征選擇的場景(Lasso回歸)。
Lasso回歸和Ridge回歸在金融、醫(yī)療、生物信息學(xué)等領(lǐng)域有廣泛應(yīng)用。

九、集成學(xué)習(xí)

Bagging

核心思想:并行地訓(xùn)練一系列各自獨(dú)立的同類模型,然后再將各個(gè)模型的輸出結(jié)果按照某種策略進(jìn)行聚合。例如,分類中可以采用投票策略,回歸中可以采用平均策略;
步驟:

  • Boostrap階段,即采用有放回的采樣方式,將訓(xùn)練集分為n個(gè)子樣本集;并用基學(xué)習(xí)器對(duì)每組樣本分布進(jìn)行訓(xùn)練,得到n個(gè)基模型;
  • Aggregating階段,將上一個(gè)階段訓(xùn)練得到的n個(gè)基模型組合起來,共同做決策。在分類任務(wù)中,可采用投票法,比如相對(duì)多數(shù)投票法,將結(jié)果預(yù)測為得票最多的類別。而在回歸任務(wù)中可采用平均法,即將每個(gè)基模型預(yù)測得到的結(jié)果進(jìn)行簡單平均或加權(quán)平均來獲得最終的預(yù)測結(jié)果。

Bagging就是再取樣 (Bootstrap) 然后在每個(gè)樣本上訓(xùn)練出來的模型取平均,所以是降低模型的variance.;Bagging 比如Random Forest 這種先天并行的算法都有這個(gè)效果

隨機(jī)森林(Random Forest)
1. 算法原理

隨機(jī)森林(Random Forest)是一種基于決策樹的集成學(xué)習(xí)方法。它通過構(gòu)建多個(gè)決策樹,并將它們的預(yù)測結(jié)果進(jìn)行投票(分類問題)或平均(回歸問題),以獲得最終的預(yù)測結(jié)果。隨機(jī)森林的構(gòu)建過程包括兩個(gè)關(guān)鍵步驟:自助采樣(bootstrap sampling)和特征隨機(jī)選擇。自助采樣用于生成不同的訓(xùn)練數(shù)據(jù)子集,每個(gè)子集用于構(gòu)建一個(gè)決策樹。特征隨機(jī)選擇則在每個(gè)決策樹節(jié)點(diǎn)上隨機(jī)選擇一部分特征進(jìn)行劃分,以增加決策樹的多樣性。這兩個(gè)步驟共同提高了隨機(jī)森林的泛化能力和魯棒性。

2.優(yōu)缺點(diǎn)

優(yōu)點(diǎn):
a) 隨機(jī)森林具有較高的預(yù)測準(zhǔn)確性,通常比單個(gè)決策樹的性能要好。
b) 能夠有效地處理高維數(shù)據(jù)和大量特征。
c) 對(duì)噪聲和異常值具有較強(qiáng)的魯棒性。
d) 可以進(jìn)行特征重要性評(píng)估,有助于特征選擇。
e) 并行化能力強(qiáng),易于實(shí)現(xiàn)并行計(jì)算。
缺點(diǎn):
a) 相比單個(gè)決策樹,隨機(jī)森林的模型可解釋性較差。
b) 訓(xùn)練和預(yù)測時(shí)間可能較長,尤其是在大數(shù)據(jù)集上。
c) 對(duì)于某些不平衡的數(shù)據(jù)集,隨機(jī)森林的性能可能不盡如人意。

3.適用場景

隨機(jī)森林適用于以下場景:
a) 需要提高預(yù)測準(zhǔn)確性的分類和回歸問題。
b) 數(shù)據(jù)集具有高維特征或特征數(shù)量較多。
c) 數(shù)據(jù)集中存在噪聲和異常值。
隨機(jī)森林在許多實(shí)際應(yīng)用中表現(xiàn)出較好的性能,尤其是在提高預(yù)測準(zhǔn)確性方面。然而,隨機(jī)森林的可解釋性較差,且在大數(shù)據(jù)集上訓(xùn)練和預(yù)測時(shí)間可能較長。在面臨這些問題時(shí),可以考慮使用其他集成方法,如梯度提升樹(Gradient Boosting Trees)等。

Boosting

AdaBoost

核心思想:串行地訓(xùn)練一系列前后依賴的同類模型,即后一個(gè)模型用來對(duì)前一個(gè)模型的輸出結(jié)果進(jìn)行糾正。Boosting算法是可以將弱學(xué)習(xí)器提升為強(qiáng)學(xué)習(xí)器的學(xué)習(xí)算法。

步驟:先從初始訓(xùn)練集訓(xùn)練出一個(gè)基學(xué)習(xí)器,再根據(jù)基學(xué)習(xí)器的表現(xiàn)對(duì)訓(xùn)練樣本進(jìn)行調(diào)整,使得先前基學(xué)習(xí)器做錯(cuò)的訓(xùn)練樣本在后續(xù)受到更多的關(guān)注,然后基于調(diào)整后的樣本分布來訓(xùn)練下一個(gè)基學(xué)習(xí)器;如此重復(fù)進(jìn)行。直至基學(xué)習(xí)器數(shù)目達(dá)到實(shí)現(xiàn)指定的值n,最終將這n個(gè)基學(xué)習(xí)器進(jìn)行結(jié)合。

Boosting 則是迭代算法,每一次迭代都根據(jù)上一次迭代的預(yù)測結(jié)果對(duì)樣本進(jìn)行加權(quán),所以隨著迭代不斷進(jìn)行,誤差會(huì)越來越小,所以模型的 bias 會(huì)不斷降低。這種算法無法并行,如Adaptive Boosting;

1. 算法原理

AdaBoost(Adaptive Boosting)是一種集成學(xué)習(xí)方法,通過多次迭代訓(xùn)練一系列弱學(xué)習(xí)器并加權(quán)組合,以提高分類性能。在每次迭代過程中,對(duì)錯(cuò)誤分類的樣本增加權(quán)重,使得后續(xù)的弱學(xué)習(xí)器更關(guān)注這些樣本。最后,將所有弱學(xué)習(xí)器的預(yù)測結(jié)果進(jìn)行加權(quán)投票,得到最終分類結(jié)果。

2.優(yōu)缺點(diǎn)

a) 優(yōu)點(diǎn):
i. 可以提高模型的準(zhǔn)確性和泛化能力。
ii. 算法簡單易于實(shí)現(xiàn)。 iii. 不容易過擬合。
b) 缺點(diǎn):
i. 對(duì)異常值和噪聲敏感,可能導(dǎo)致性能下降。
ii. 訓(xùn)練過程需要依次進(jìn)行,較難并行化。

3.適用場景

AdaBoost適用于以下場景:
a) 當(dāng)基學(xué)習(xí)器性能較弱時(shí),可以通過集成提高性能。
b) 適用于二分類問題,尤其是需要提高分類性能的場景。
AdaBoost在人臉檢測、文本分類、客戶流失預(yù)測等領(lǐng)域有廣泛應(yīng)用。

梯度提升樹(Gradient Boosting Trees)
1. 算法原理

梯度提升樹(GBT)是一種集成學(xué)習(xí)方法,通過多次迭代訓(xùn)練一系列決策樹并加權(quán)組合,以提高模型性能。GBT的核心思想是在每輪迭代中擬合前一輪模型的殘差,并將新擬合的樹的預(yù)測結(jié)果與前一輪的預(yù)測結(jié)果相加,以逐步減小損失函數(shù)。GBT可以用于回歸和分類問題。

2.優(yōu)缺點(diǎn)

a) 優(yōu)點(diǎn): i. 模型性能高,可以處理高維度、非線性、復(fù)雜關(guān)系的數(shù)據(jù)。
ii. 可以自動(dòng)處理缺失值,減少數(shù)據(jù)預(yù)處理工作。
iii. 可以通過特征重要性分析進(jìn)行特征選擇。
b) 缺點(diǎn): i. 訓(xùn)練過程較慢,需要依次進(jìn)行,較難并行化。
ii. 對(duì)超參數(shù)的選擇敏感,需要進(jìn)行調(diào)優(yōu)。
iii. 可能產(chǎn)生過擬合,需要使用正則化方法和早停策略。

3.適用場景

梯度提升樹適用于以下場景:
a) 需要處理高維度、非線性、復(fù)雜關(guān)系的數(shù)據(jù)。
b) 需要較高預(yù)測性能的場景。
梯度提升樹在金融風(fēng)控、廣告點(diǎn)擊率預(yù)測、銷售預(yù)測等領(lǐng)域有廣泛應(yīng)用。

GBDT
核心思想

梯度提升決策樹(Gradient Boosting Decision Tree,GBDT) 是將多個(gè)弱學(xué)習(xí)器(通常是決策樹)組合成一個(gè)強(qiáng)大的預(yù)測模型。具體而言,GBDT的定義如下:
初始化:首先,GBDT使用一個(gè)常數(shù)(通常是目標(biāo)變量的平均值)作為初始預(yù)測值。這個(gè)初始預(yù)測值代表了我們對(duì)目標(biāo)變量的初始猜測。
迭代訓(xùn)練:GBDT是一個(gè)迭代算法,通過多輪迭代來逐步改進(jìn)模型。在每一輪迭代中,GBDT都會(huì)訓(xùn)練一棵新的決策樹,目標(biāo)是減少前一輪模型的殘差(或誤差)。殘差是實(shí)際觀測值與當(dāng)前模型預(yù)測值之間的差異,新的樹將學(xué)習(xí)如何糾正這些殘差。
集成:最終,GBDT將所有決策樹的預(yù)測結(jié)果相加,得到最終的集成預(yù)測結(jié)果。這個(gè)過程使得模型能夠捕捉數(shù)據(jù)中的復(fù)雜關(guān)系,從而提高了預(yù)測精度。
GBDT的核心原理在于不斷迭代,每一輪迭代都嘗試修正前一輪模型的錯(cuò)誤,逐漸提高模型的預(yù)測性能。

優(yōu)缺點(diǎn)

優(yōu)點(diǎn):

  1. 可以靈活處理各種類型的數(shù)據(jù),包括連續(xù)值和離散值。
  2. 在相對(duì)少的調(diào)參時(shí)間情況下,預(yù)測的準(zhǔn)備率也可以比較高。這個(gè)是相對(duì)SVM來說的。
    3)使用一些健壯的損失函數(shù),對(duì)異常值的魯棒性非常強(qiáng)。比如 Huber損失函數(shù)和Quantile損失函數(shù)。
  3. 很好的利用了弱分類器進(jìn)行級(jí)聯(lián)。
  4. 充分考慮的每個(gè)分類器的權(quán)重。
    6)不需要?dú)w一化。樹模型都不需要,梯度下降算法才需要
    6)處理非線性關(guān)系

缺點(diǎn):
1)由于弱學(xué)習(xí)器之間存在依賴關(guān)系,難以并行訓(xùn)練數(shù)據(jù)。不過可以通過自采樣的SGBT來達(dá)到部分并行。
2)不適合高維稀疏特征

適用場景

GBDT 可以適用于回歸問題(線性和非線性);
GBDT 也可用于二分類問題(設(shè)定閾值,大于為正,否則為負(fù))和多分類問題。

XGBoost
1. 算法原理

XGBoost(eXtreme Gradient Boosting)是基于梯度提升(Gradient Boosting)的決策樹集成學(xué)習(xí)方法。XGBoost通過加入正則化項(xiàng),降低模型復(fù)雜度,提高泛化能力。同時(shí),XGBoost采用了并行計(jì)算和近似算法,顯著提高了訓(xùn)練速度。
XGBoost是基于GBDT 的一種改進(jìn)算法;

2.優(yōu)缺點(diǎn)

優(yōu)點(diǎn):
i. 高效的訓(xùn)練速度,支持并行計(jì)算。
ii. 高準(zhǔn)確率,通過正則化降低過擬合風(fēng)險(xiǎn)。
iii. 支持自定義損失函數(shù)和評(píng)估指標(biāo)。
iv. 內(nèi)置特征重要性排序功能。
缺點(diǎn):
i. 超參數(shù)調(diào)優(yōu)較為復(fù)雜。
ii. 需要較多的計(jì)算資源。

3.適用場景

XGBoost在以下場景表現(xiàn)優(yōu)異:
a) 大規(guī)模數(shù)據(jù)集。
b) 需要高準(zhǔn)確率的分類和回歸任務(wù)。
c) 特征選擇。
XGBoost在Kaggle競賽中廣泛應(yīng)用,獲得了多次勝利。

LightGBM

LightGBM是一種基于梯度提升樹的機(jī)器學(xué)習(xí)算法,它通過使用基于直方圖的算法和帶有按葉子節(jié)點(diǎn)分割的決策樹來提高訓(xùn)練和預(yù)測的效率。

算法原理

基于直方圖的算法:LightGBM使用了一種基于直方圖的算法來處理數(shù)據(jù)。它將數(shù)據(jù)按特征值進(jìn)行離散化,構(gòu)建直方圖并對(duì)其進(jìn)行優(yōu)化,從而減少了內(nèi)存消耗和計(jì)算時(shí)間。
基于按葉子節(jié)點(diǎn)分割的決策樹:傳統(tǒng)的梯度提升樹算法在每個(gè)節(jié)點(diǎn)上都嘗試所有特征的切分點(diǎn),而LightGBM在構(gòu)建決策樹時(shí)采用了按葉子節(jié)點(diǎn)分割的策略。這樣可以減少計(jì)算量,并且更容易處理高維稀疏特征。
LightGBM也是基于GBDT的改進(jìn)算法;

優(yōu)缺點(diǎn)

優(yōu)點(diǎn):
高效性:LightGBM具有高效的訓(xùn)練和預(yù)測速度,尤其在處理大規(guī)模數(shù)據(jù)集時(shí)表現(xiàn)出色。
低內(nèi)存消耗:由于使用了基于直方圖的算法和按葉子節(jié)點(diǎn)分割的決策樹,LightGBM能夠減少內(nèi)存消耗,適用于內(nèi)存有限的環(huán)境。
高準(zhǔn)確性:LightGBM通過優(yōu)化算法和特征選擇等方法提高了模型的準(zhǔn)確性。
缺點(diǎn):
對(duì)噪聲敏感:LightGBM在處理噪聲較大的數(shù)據(jù)時(shí)可能會(huì)過擬合,需要進(jìn)行適當(dāng)?shù)恼齽t化。
參數(shù)調(diào)優(yōu):LightGBM有一些需要調(diào)優(yōu)的參數(shù),不同的參數(shù)組合可能會(huì)導(dǎo)致不同的效果,需要進(jìn)行合適的參數(shù)調(diào)優(yōu)。

注意事項(xiàng):
數(shù)據(jù)預(yù)處理:對(duì)數(shù)據(jù)進(jìn)行清洗、缺失值處理和特征工程等預(yù)處理步驟,以提高模型的泛化能力。
參數(shù)調(diào)優(yōu):通過交叉驗(yàn)證等方法選擇合適的參數(shù)組合,以獲得更好的模型性能。
提前停止:在訓(xùn)練過程中使用早期停止法,避免模型過擬合。
特征重要性評(píng)估:通過分析模型輸出的特征重要性,可以幫助理解數(shù)據(jù)和模型之間的關(guān)系,指導(dǎo)特征選擇和特征工程。

總體而言,LightGBM是一種高效、低內(nèi)存消耗且具有準(zhǔn)確性的機(jī)器學(xué)習(xí)算法,在處理大規(guī)模數(shù)據(jù)集和高維稀疏特征方面具有優(yōu)勢(shì)。但需要注意參數(shù)調(diào)優(yōu)和模型過擬合問題。

無監(jiān)督

一、K-均值聚類

1. 算法原理

K-均值聚類(K-means clustering)是一種迭代的無監(jiān)督學(xué)習(xí)算法,用于將數(shù)據(jù)集劃分為K個(gè)簇。算法的主要思想是最小化各個(gè)簇內(nèi)樣本與其質(zhì)心的距離之和,以達(dá)到數(shù)據(jù)聚類的目的。K-均值聚類的具體步驟如下:
a) 隨機(jī)選擇K個(gè)初始質(zhì)心。
b) 將每個(gè)樣本分配到距離其最近的質(zhì)心所在的簇。
c) 更新每個(gè)簇的質(zhì)心,即計(jì)算每個(gè)簇內(nèi)所有樣本的均值。
d) 重復(fù)步驟b和c,直到質(zhì)心不再發(fā)生變化或達(dá)到最大迭代次數(shù)。

2.優(yōu)缺點(diǎn)

優(yōu)點(diǎn):
a) 算法簡單,易于實(shí)現(xiàn)和理解。
b) 計(jì)算復(fù)雜度較低,適用于大數(shù)據(jù)集。
c) 可以處理數(shù)值型數(shù)據(jù)。
缺點(diǎn):
a) 需要預(yù)先指定K值,且對(duì)K值的選擇敏感。
b) 對(duì)初始質(zhì)心的選擇敏感,可能陷入局部最優(yōu)解。
c) 對(duì)噪聲和異常值敏感。
d) 對(duì)于非球形簇或簇大小差異較大的情況,效果可能不佳。
e) 僅適用于數(shù)值型數(shù)據(jù),不能直接處理離散型數(shù)據(jù)。

3.適用場景

K-均值聚類適用于以下場景:
a) 數(shù)據(jù)集中存在一定程度的自然分組,且數(shù)據(jù)分布較為均勻。
b) 數(shù)據(jù)集中的特征為數(shù)值型。
c) 需要一種簡單且計(jì)算復(fù)雜度較低的聚類方法。
K-均值聚類在許多實(shí)際應(yīng)用中表現(xiàn)出較好的性能,如市場細(xì)分、文檔聚類、圖像壓縮等。然而,K-均值聚類對(duì)K值的選擇、初始質(zhì)心選擇以及噪聲和異常值敏感。在面臨這些問題時(shí),可以考慮使用其他聚類方法,如DBSCAN、譜聚類等。

二、主成分分析(PCA)

1. 算法原理

主成分分析(PCA,Principal Component Analysis)是一種常用的無監(jiān)督線性降維方法,旨在通過線性投影將原始高維特征空間映射到低維空間,同時(shí)保留數(shù)據(jù)集中的最大方差。PCA 的主要步驟如下:
a) 對(duì)數(shù)據(jù)集進(jìn)行中心化,即使數(shù)據(jù)的均值為零。
b) 計(jì)算數(shù)據(jù)集的協(xié)方差矩陣。
c) 對(duì)協(xié)方差矩陣進(jìn)行特征值分解,得到特征值和特征向量。
d) 按照特征值的大小降序排列特征向量,選擇前 k 個(gè)特征向量組成投影矩陣。
e) 將原始數(shù)據(jù)集乘以投影矩陣,得到降維后的數(shù)據(jù)。

2.優(yōu)缺點(diǎn)

優(yōu)點(diǎn):
a) 能夠減少數(shù)據(jù)的維度,降低計(jì)算復(fù)雜度。
b) 能夠消除特征之間的相關(guān)性,簡化模型。
c) 在降維過程中盡量保留原始數(shù)據(jù)的信息。
d) 適用于處理連續(xù)型特征。
缺點(diǎn):
a) 假設(shè)數(shù)據(jù)的主要成分是線性組合,對(duì)非線性數(shù)據(jù)降維效果可能不佳。
b) 對(duì)異常值敏感,可能影響主成分的計(jì)算。
c) 僅考慮方差最大化,可能忽略其他有用的信息。
d) 不能處理離散型特征。

3.適用場景

主成分分析適用于以下場景:
a) 數(shù)據(jù)集具有較高的維度,需要降低計(jì)算復(fù)雜度。 b) 特征之間存在較強(qiáng)的相關(guān)性。 c) 需要簡化模型,減少過擬合風(fēng)險(xiǎn)。 d) 數(shù)據(jù)集的特征為連續(xù)型。
PCA 在許多實(shí)際應(yīng)用中表現(xiàn)出較好的性能,如圖像識(shí)別、股票市場分析等。然而,PCA 對(duì)非線性數(shù)據(jù)的降維效果可能不佳,此時(shí)可以考慮使用其他降維方法,如核主成分分析(KPCA)、t-分布鄰域嵌入算法(t-SNE)等。

三、密度聚類(DBSCAN)

DBSCAN是一種基于密度的聚類算法,這類密度聚類算法一般假定類別可以通過樣本分布的緊密程度決定。同一類別的樣本,他們之間的緊密相連的,也就是說,在該類別任意樣本周圍不遠(yuǎn)處一定有同類別的樣本存在。

通過將緊密相連的樣本劃為一類,這樣就得到了一個(gè)聚類類別。通過將所有各組緊密相連的樣本劃為各個(gè)不同的類別,則我們就得到了最終的所有聚類類別結(jié)果。
在這里插入圖片描述
在這里插入圖片描述
故DBSCAN算法將簇定義為:由密度可達(dá)關(guān)系導(dǎo)出的最大密度相連的集合。于是,DBSCAN算法先任選數(shù)據(jù)集中的一個(gè)核心對(duì)象為種子,由此出發(fā)確定相應(yīng)的聚類簇,其算法流程圖如下所示:
在這里插入圖片描述

優(yōu)缺點(diǎn)

DBSCAN算法優(yōu)點(diǎn):
不需要事先指定聚類個(gè)數(shù),且可以發(fā)現(xiàn)任意形狀的聚類;
對(duì)異常點(diǎn)不敏感,在聚類過程中能自動(dòng)識(shí)別出異常點(diǎn);
聚類結(jié)果不依賴于節(jié)點(diǎn)的遍歷順序;

DBSCAN缺點(diǎn):
對(duì)于密度不均勻,聚類間分布差異大的數(shù)據(jù)集,聚類質(zhì)量變差;
樣本集較大時(shí),算法收斂時(shí)間較長;
調(diào)參較復(fù)雜,要同時(shí)考慮兩個(gè)參數(shù);

http://m.risenshineclean.com/news/58196.html

相關(guān)文章:

  • 商務(wù)部市場體系建設(shè)司網(wǎng)站北京百度網(wǎng)站排名優(yōu)化
  • 以小說名字做網(wǎng)站的小說網(wǎng)關(guān)鍵詞搜索熱度
  • pc網(wǎng)站和app哪個(gè)容易做百度一下搜索
  • 國家企業(yè)信息系統(tǒng)官方seo優(yōu)化多久能上排名
  • 用eclipse編程做網(wǎng)站自動(dòng)app優(yōu)化最新版
  • 網(wǎng)站開發(fā)計(jì)劃書范文怎么創(chuàng)建一個(gè)網(wǎng)址
  • 保定定興網(wǎng)站建設(shè)安卓手機(jī)優(yōu)化神器
  • 如何查找做網(wǎng)站的服務(wù)商白山網(wǎng)絡(luò)推廣
  • 做網(wǎng)站跟app的區(qū)別營銷策劃公司排行榜
  • 自己做的網(wǎng)站怎么設(shè)置文件下載國外免費(fèi)網(wǎng)站服務(wù)器
  • 怎樣做企業(yè)手機(jī)網(wǎng)站seo二級(jí)目錄
  • 網(wǎng)站點(diǎn)擊量怎么看關(guān)鍵詞排名批量查詢
  • 云客服系統(tǒng)合肥百度搜索優(yōu)化
  • 6黃頁網(wǎng)站建設(shè)網(wǎng)絡(luò)推廣公司主要做什么
  • 站點(diǎn)建錯(cuò)了網(wǎng)頁能打開嗎seo還有用嗎
  • 網(wǎng)站html地圖怎么做百度廣告競價(jià)
  • 全椒做網(wǎng)站seo專業(yè)培訓(xùn)
  • 網(wǎng)站建設(shè)內(nèi)容和功能的介紹做百度推廣銷售怎么找客戶
  • 中山比好的做網(wǎng)站的公司企業(yè)官網(wǎng)
  • 自己買主機(jī)可以做網(wǎng)站嗎濟(jì)南seo小黑seo
  • 建設(shè)網(wǎng)站公司價(jià)格2024年將爆發(fā)新瘟疫
  • 做網(wǎng)站的榮譽(yù)證書推廣運(yùn)營公司哪家好
  • 專門做詳情頁的網(wǎng)站google海外版
  • 男女做那種的視頻網(wǎng)站百度平臺(tái)客服聯(lián)系方式
  • 馬鞍山建設(shè)機(jī)械網(wǎng)站seo優(yōu)化網(wǎng)站的注意事項(xiàng)
  • 手機(jī)免費(fèi)制作ppt的軟件下載谷歌seo一個(gè)月費(fèi)用需要2萬嗎
  • 佳木斯城鄉(xiāng)建設(shè)局官方網(wǎng)站seo排名專業(yè)公司
  • wordpress建站專家網(wǎng)絡(luò)營銷需要學(xué)什么
  • 建設(shè)網(wǎng)站的策劃書最強(qiáng)大的搜索引擎
  • 網(wǎng)站設(shè)計(jì)的原則有哪些互聯(lián)網(wǎng)營銷的方法