中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當前位置: 首頁 > news >正文

圖片無法顯示wordpress網(wǎng)站seo優(yōu)化8888

圖片無法顯示wordpress,網(wǎng)站seo優(yōu)化8888,海口專業(yè)網(wǎng)站建設,怎么樣安裝wordpress引言 梯度下降法(Gradient Descent)是一種廣泛應用于機器學習領域的基本優(yōu)化算法,它通過迭代地調整模型參數(shù),最小化損失函數(shù)以求得到模型最優(yōu)解。 通過閱讀本篇博客,你可以: 1.知曉梯度下降法的具體流程 2.掌握不同梯度下降法…

引言

梯度下降法(Gradient Descent)是一種廣泛應用于機器學習領域的基本優(yōu)化算法,它通過迭代地調整模型參數(shù),最小化損失函數(shù)以求得到模型最優(yōu)解。

通過閱讀本篇博客,你可以:

1.知曉梯度下降法的具體流程

2.掌握不同梯度下降法的區(qū)別

一、梯度下降法的流程

梯度下降法的流程通常分為以下四個步驟。

1.初始化模型參數(shù)

初始化模型參數(shù)其實就是random隨機一個初始的?\theta?(一組 W_{0},...,W_{n})。這樣我們就可以得到上圖中的 Starting Point(開始點)

2.計算當下參數(shù)的梯度

計算模型參數(shù)的梯度,其實就是對于當前損失函數(shù)所在位置進行求偏導,公式:

gradient_{j} = \frac{\partial J(\theta)}{\partial \theta_{j}}

公式推導?J(\theta)?是損失函數(shù),\theta_{j}?是樣本中某個特征維度?x_{j}?對應的權值系數(shù),也可以寫成?W_{j}?。對于多元線性回歸來說,損失函數(shù)?J(\theta) = \frac{1}{2}(h_{\theta}x - y)^{2}?(推導過程在9.深入線性回歸推導出MSE——不容小覷的線性回歸算法-CSDN博客中),因為我們的MSE中?Xy?是已知的,\theta?是未知的,而?\theta?不是一個變量而是許多向量組成的矩陣,所以我們只能對含有一堆變量的函數(shù)MSE中的一個變量求導,即偏導,下面就是對?\theta_{j}?求偏導。

\frac{\partial J(\theta)}{\partial \theta_{j}} = \frac{\partial \frac{1}{2}(h_{\theta}x-y)^{2}}{\partial \theta_{j}}

由于鏈式求導法則,我們可以推出:

\Rightarrow \frac{\partial J(\theta)}{\partial \theta_{j}} = 2 \cdot \frac{1}{2}(h_{\theta}x-y) \cdot\frac{\partial (h_{\theta}x - y)}{\partial \theta_{j}}

在多元線性回歸中,h_{\theta}x?就是?W^{T}X,也就是?\omega _{0}x_{0} + \omega_{1}x_{1}+...+\omega_{n}x_{n},我們通常把它寫成\sum_{n}^{i = 0}\omega _{i}x_{i}?,所以繼續(xù)推導公式:

\Rightarrow \frac{\partial J(\theta)}{\partial \theta_{j}} = (h_{\theta}x - y) \cdot \frac{\partial \sum_{n}^{i =0}(\theta_{i}x_{i}-y)}{\partial \theta_{j}}

由于我們是對?\theta_{j}?求偏導,那么和?\theta_{j}?無關的可以忽略不計,所以公式變?yōu)?#xff1a;

\Rightarrow \frac{\partial J(\theta)}{\partial \theta_{j}} = (h_{\theta}x - y) \cdot x_{j}

所以,我們可以得到結論:\theta_{j}?對應的梯度(gradient)與預測值?\hat{y}?和真實值?y?有關,同時還與每個特征維度?x_{j}?有關。如果我們分別對每個維度求偏導,即可得到所有維度對應的梯度值。

3.根據(jù)梯度和學習率更新參數(shù)

通過11.梯度下降法的思想——舉足輕重的模型優(yōu)化算法-CSDN博客的學習,我們已經(jīng)知道了梯度下降法的公式:

W_{j}^{t+1} = W_{j}^{t} - \eta \cdot gradient_{j}

在獲得了梯度之后,我們可以將公式表示為:

W_{j}^{t+1} = W_{j}^{t} - \eta \cdot (h_{\theta}x - y) \cdot x_{j}

通過這個公式我們就可以去更新參數(shù)逼近最優(yōu)解。

4.判斷是否收斂

在如何判斷收斂問題上,我相信大多數(shù)的人都會認為直接判斷梯度(gradient)是否為0。其實這樣的方法是錯誤的,由于非凸損失函數(shù)的存在,gradient = 0?的情況可能是極大值!所以我們使用了另外一種方法,設置合理的閾值(Threshold)來界定函數(shù)是否收斂。即判斷不等式:

Loss^{t} - Loss^{t+1} < Threshold

如果前一次的損失函數(shù)?Loss^{t}?減去這次迭代后的損失函數(shù)?Loss^{t+1} 小于我們設定的閾值Threshold?,那我們認為函數(shù)收斂,當前的參數(shù)就是我們尋求的最優(yōu)解。反之,我們重復第二步與第三步,一直達到最優(yōu)解為止。其實我們是在判斷?Loss?的下降收益是否更合理,隨著迭代次數(shù)的增多,Loss?減小的幅度不再變化就可以認為停止在最低點。

二、梯度下降法的分類

我們根據(jù)梯度下降法流程中求取梯度的步驟樣本數(shù)量的不同,將梯度下降法分為三個基本的類別。它們每次學習(更新模型參數(shù))使用的樣本個數(shù),每次更新使用不同的樣本會導致每次學習的準確性和學習時間不同。

1.全量梯度下降(Batch Gradient Descent)

全量梯度下降(Batch Gradient Descent)通過使用整個數(shù)據(jù)集在每次迭代中計算損失函數(shù)的梯度,以此更新模型參數(shù)(也稱批量梯度下降)。由于我們使用整個數(shù)據(jù)集的樣本,所以全量梯度下降的公式為:

W_{j}^{t+1} = W_{j}^{t} - \eta \cdot \sum_{m}^{i = 1}(h_{\theta}x_{i} - y_{i}) \cdot x_{j}

在全量梯度下降中,對于?\theta?的更新,所有的樣本都有貢獻,也就是參與調整?\theta?。所以從理論上來說一次更新的幅度是比較大的。

全量梯度下降法的優(yōu)點在于收斂穩(wěn)定,每次更新都朝著全局最優(yōu)的方向移動。并且能夠凈化噪聲,由于使用整個數(shù)據(jù)集計算梯度,隨機噪聲對更新的影響較小,使得損失函數(shù)的路徑相對平滑。

缺點也是相當明顯,當數(shù)據(jù)集非常大時,全量梯度下降法每個迭代計算數(shù)據(jù)集的梯度是非常耗時且占用內存的。所以不適合處理實時數(shù)據(jù),比如在線學習和實時更新數(shù)據(jù)場景。

上圖表示的梯度下降法中兩個維度參數(shù)的關系,我們可以將圓圈看成一個碗的俯視圖,碗底就是我們要找的最優(yōu)解。我們不難發(fā)現(xiàn),全量梯度下降法每次迭代都直接向碗底行進,目標明確。

2.隨機梯度下降(Stochastic Gradient Descent)

隨機梯度下降(Stochastic Gradient Descent)通過使用數(shù)據(jù)集中的一個隨機樣本在每次迭代中計算損失函數(shù)的梯度,以此更新模型參數(shù)。由于使用隨機的一個樣本,所以隨機梯度下降的公式就是:

W_{j}^{t+1} = W_{j}^{t} - \eta \cdot (h_{\theta}x - y) \cdot x_{j}

隨機梯度下降的優(yōu)點在于計算速度快,由于每次迭代只對一個樣本計算梯度,因此更新速度快,適合大規(guī)模數(shù)據(jù)集。它還擁有更強的泛化能力,由于引入了隨機性,SGD能更好地跳出局部最優(yōu),避免過擬合(過擬合相關內容會在專欄后續(xù)文章中更新)。并且能夠處理實時數(shù)據(jù),可以在線學習,所以適用于動態(tài)更新的場景。

同樣地,由于每次更新只基于一個樣本,SGD的收斂并不穩(wěn)定,梯度波動較大,會導致?lián)p失函數(shù)的收斂路徑不平穩(wěn)。并且由于隨機性的存在,SGD通常需要更多的迭代次數(shù)才能收斂到最優(yōu)解,即收斂速度變慢。

從上圖我們可以看出,相比較全量梯度下降,SGD需要迭代更多的次數(shù)才能找到最優(yōu)解。

3.小批量梯度下降(Mini-batch Gradient Descent)

小批量梯度下降(Mini-batch Gradient Descent)通過使用數(shù)據(jù)集的一部分樣本在每次迭代中計算損失函數(shù)的梯度,以此更新模型參數(shù)。由于使用了數(shù)據(jù)集的部分樣本,所以小批量梯度下降的公式為:

W_{j}^{t+1} = W_{j}^{t} - \eta \cdot \sum_{batchsize}^{i = 1}(h_{\theta}x_{i} - y_{i}) \cdot x_{j}

小批量梯度下降綜合了全量梯度下降與隨機梯度下降,在更新速度與更新次數(shù)中取得一個平衡。其每次更新從數(shù)據(jù)集中隨機選擇?batchsize?個樣本進行學習。相對于隨機梯度下降法,小批量梯度下降法降低了收斂的波動性(降低了參數(shù)更新的方差),使得更新更加穩(wěn)定。相對于全量梯度下降法,其提高了每次學習的速度。

小批量梯度下降的優(yōu)點在于平衡了計算效率和收斂穩(wěn)定性。并且不用擔心內存瓶頸而使用向量化計算,還能利用GPU的并行計算能力提高計算速度。在每個小批量中,我們可以設置不同的學習率,提高模型的訓練表現(xiàn)。

小批量梯度下降的缺點則在于樣本的大小會影響訓練效果,所以我們要人為地選擇合適的樣本大小。

從下圖中我們就能看到隨機梯度下降與小批量梯度下降的區(qū)別。

總結

本篇博客講解了梯度下降法的流程和大致的分類。希望可以對大家起到作用,謝謝。


關注我,內容持續(xù)更新(后續(xù)內容在作者專欄《從零基礎到AI算法工程師》)!!!

http://m.risenshineclean.com/news/63621.html

相關文章:

  • 重慶市建設醫(yī)院網(wǎng)站首頁西點培訓前十名學校
  • 深圳網(wǎng)站開發(fā)公司 有哪些seo入門培訓課程
  • 做汽車網(wǎng)站開題報告的意義微信crm系統(tǒng)
  • wordpress tab切換怎么做好seo推廣
  • 宜春網(wǎng)站建設公司哪家好公司網(wǎng)站建設服務機構
  • 做網(wǎng)站還 淘寶百度引擎的搜索方式是什么
  • 瀏陽做網(wǎng)站的公司價格我贏seo
  • 做自媒體有哪些素材網(wǎng)站廣州品牌營銷服務
  • 怎樣在網(wǎng)站上做營業(yè)執(zhí)照公示滕州今日頭條新聞
  • 網(wǎng)站設計標準尺寸電商平臺開發(fā)需要多少錢
  • 濰坊網(wǎng)站建設價格深圳百度推廣客服
  • wordpress后臺管理面板的主題搜索引擎優(yōu)化論文
  • java 做直播網(wǎng)站有哪些軟件有哪些最新app推廣項目平臺
  • 廈門市網(wǎng)站建設寧波專業(yè)seo服務
  • wordpress頁面添加圖片優(yōu)化排名案例
  • 石家莊做網(wǎng)站多少錢百度注冊頁面
  • 深圳做棋牌網(wǎng)站建設哪家公司收費合理網(wǎng)絡營銷外包
  • 廣州網(wǎng)絡推廣有限公司滎陽seo推廣
  • 自己怎么做網(wǎng)站賣車bt種子bt天堂
  • 電子政務網(wǎng)站建設公司排行榜引擎搜索網(wǎng)站
  • 物理結構網(wǎng)站怎么看app的下載網(wǎng)址
  • 網(wǎng)站建設新聞資訊無錫seo網(wǎng)站排名
  • 電腦視頻制作軟件seo在線優(yōu)化
  • qq開放平臺網(wǎng)站開發(fā)申請不通過的原因制作網(wǎng)站推廣
  • 什么網(wǎng)站可以做美食寧波網(wǎng)絡營銷推廣咨詢報價
  • 深圳網(wǎng)站營銷推廣公司電話網(wǎng)絡推廣怎么找客戶資源
  • ??悼h城鄉(xiāng)建設路網(wǎng)站怎么有自己的網(wǎng)站
  • 網(wǎng)站建設的客戶在哪里山西seo關鍵詞優(yōu)化軟件搜索
  • 深圳網(wǎng)站建設(信科網(wǎng)絡)大數(shù)據(jù)營銷軟件
  • jizhicmsseo排名是什么意思