中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當前位置: 首頁 > news >正文

國內(nèi)做外貿(mào)網(wǎng)站的有哪些資料遼寧網(wǎng)站建設(shè)

國內(nèi)做外貿(mào)網(wǎng)站的有哪些資料,遼寧網(wǎng)站建設(shè),用illustrator做網(wǎng)站,河北智能網(wǎng)站建設(shè)文章目錄 一、強化學習問題1、交互的對象2、強化學習的基本要素3、策略(Policy)4、馬爾可夫決策過程5、強化學習的目標函數(shù)1. 總回報(Return)2. 折扣回報(Discounted Return)a. 折扣率b. 折扣回報的定義 3.…

文章目錄

  • 一、強化學習問題
    • 1、交互的對象
    • 2、強化學習的基本要素
    • 3、策略(Policy)
    • 4、馬爾可夫決策過程
    • 5、強化學習的目標函數(shù)
      • 1. 總回報(Return)
      • 2. 折扣回報(Discounted Return)
        • a. 折扣率
        • b. 折扣回報的定義
      • 3. 目標函數(shù)
        • a. 目標函數(shù)的定義
        • 2. 目標函數(shù)的解釋
        • 3. 優(yōu)化目標
      • 4、智能體走迷宮
        • a. 問題
        • b. 解析

一、強化學習問題

??強化學習的基本任務是通過智能體與環(huán)境的交互學習一個策略,使得智能體能夠在不同的狀態(tài)下做出最優(yōu)的動作,以最大化累積獎勵。這種學習過程涉及到智能體根據(jù)當前狀態(tài)選擇動作,環(huán)境根據(jù)智能體的動作轉(zhuǎn)移狀態(tài),并提供即時獎勵的循環(huán)過程。

1、交互的對象

??在強化學習中,有兩個可以進行交互的對象:智能體環(huán)境

  • 智能體(Agent):能感知外部環(huán)境的狀態(tài)(State)和獲得的獎勵(Reward),并做出決策(Action)。智能體的決策和學習功能使其能夠根據(jù)狀態(tài)選擇不同的動作,學習通過獲得的獎勵來調(diào)整策略。

  • 環(huán)境(Environment):是智能體外部的所有事物,對智能體的動作做出響應,改變狀態(tài),并反饋相應的獎勵。

2、強化學習的基本要素

??強化學習涉及到智能體與環(huán)境的交互,其基本要素包括狀態(tài)、動作、策略、狀態(tài)轉(zhuǎn)移概率和即時獎勵。

  • 狀態(tài)(State):對環(huán)境的描述,可能是離散或連續(xù)的。

  • 動作(Action):智能體的行為,也可以是離散或連續(xù)的。

  • 策略(Policy):智能體根據(jù)當前狀態(tài)選擇動作的概率分布。

  • 狀態(tài)轉(zhuǎn)移概率(State Transition Probability):在給定狀態(tài)和動作的情況下,環(huán)境轉(zhuǎn)移到下一個狀態(tài)的概率。

  • 即時獎勵(Immediate Reward):智能體在執(zhí)行動作后,環(huán)境反饋的獎勵。

3、策略(Policy)

??策略(Policy)就是智能體如何根據(jù)環(huán)境狀態(tài) 𝑠 來決定下一步的動作 𝑎(智能體在特定狀態(tài)下選擇動作的規(guī)則或分布)。

  • 確定性策略(Deterministic Policy) 直接指定智能體應該采取的具體動作
  • 隨機性策略(Stochastic Policy) 則考慮了動作的概率分布,增加了對不同動作的探索。

上述概念可詳細參照:【深度學習】強化學習(一)強化學習定義

4、馬爾可夫決策過程

??為了簡化描述,將智能體與環(huán)境的交互看作離散的時間序列。智能體從感知到的初始環(huán)境 s 0 s_0 s0? 開始,然后決定做一個相應的動作 a 0 a_0 a0?,環(huán)境相應地發(fā)生改變到新的狀態(tài) s 1 s_1 s1?,并反饋給智能體一個即時獎勵 r 1 r_1 r1?,然后智能體又根據(jù)狀態(tài) s 1 s_1 s1?做一個動作 a 1 a_1 a1?,環(huán)境相應改變?yōu)?span id="vxwlu0yf4" class="katex--inline"> s 2 s_2 s2?,并反饋獎勵 r 2 r_2 r2?。這樣的交互可以一直進行下去: s 0 , a 0 , s 1 , r 1 , a 1 , … , s t ? 1 , r t ? 1 , a t ? 1 , s t , r t , … , s_0, a_0, s_1, r_1, a_1, \ldots, s_{t-1}, r_{t-1}, a_{t-1}, s_t, r_t, \ldots, s0?,a0?,s1?,r1?,a1?,,st?1?,rt?1?,at?1?,st?,rt?,,其中 r t = r ( s t ? 1 , a t ? 1 , s t ) r_t = r(s_{t-1}, a_{t-1}, s_t) rt?=r(st?1?,at?1?,st?) 是第 t t t 時刻的即時獎勵。這個交互過程可以被視為一個馬爾可夫決策過程(Markov Decision Process,MDP)
在這里插入圖片描述

關(guān)于馬爾可夫決策過程可詳細參照:【深度學習】強化學習(二)馬爾可夫決策過程

5、強化學習的目標函數(shù)

??強化學習的目標是通過學習到的策略 π θ ( a ∣ s ) \pi_{\theta}(a|s) πθ?(as) 來最大化期望回報(Expected Return),即希望智能體執(zhí)行一系列動作以獲取盡可能多的平均回報。

  • 總回報:對于一次交互過程的軌跡,總回報是累積獎勵的和。
  • 折扣回報:引入折扣率,考慮未來獎勵的權(quán)重。

1. 總回報(Return)

??總回報(Total Return)指智能體與環(huán)境一次交互過程中所累積的獎勵。給定一個策略 π ( a ∣ s ) \pi(a|s) π(as),智能體與環(huán)境的交互過程可以通過軌跡 τ \tau τ 來表示,而這個軌跡的總回報 G ( τ ) G(\tau) G(τ) 可以通過累積獎勵的方式進行計算。

  • 總回報 G ( τ ) G(\tau) G(τ) 定義:
    G ( τ ) = ∑ t = 0 T ? 1 r t + 1 G(\tau) = \sum_{t=0}^{T-1} r_{t+1} G(τ)=t=0T?1?rt+1?其中 T T T 表示交互的總時長, r t + 1 r_{t+1} rt+1? 表示在時刻 t + 1 t+1 t+1 獲得的即時獎勵。

  • 總回報也可以通過獎勵函數(shù)的形式表示:
    G ( τ ) = ∑ t = 0 T ? 1 r ( s t , a t , s t + 1 ) G(\tau) = \sum_{t=0}^{T-1} r(s_t, a_t, s_{t+1}) G(τ)=t=0T?1?r(st?,at?,st+1?)
    這里, r ( s t , a t , s t + 1 ) r(s_t, a_t, s_{t+1}) r(st?,at?,st+1?) 表示在狀態(tài) s t s_t st? 下執(zhí)行動作 a t a_t at? 后轉(zhuǎn)移到狀態(tài) s t + 1 s_{t+1} st+1? 所獲得的獎勵。

2. 折扣回報(Discounted Return)

a. 折扣率

??對于存在終止狀態(tài)(Terminal State)的任務,當智能體到達終止狀態(tài)時,交互過程結(jié)束,這一輪的交互稱為一個回合(Episode)或試驗(Trial)。一般強化學習任務都是回合式任務(Episodic Task),如下棋、玩游戲等。
??然而,對于一些持續(xù)式任務(Continuing Task),其中不存在終止狀態(tài),智能體的交互可以無限進行下去,即 T = ∞ T = \infty T=。在這種情況下,總回報可能會無窮大。為了解決這個問題,引入了折扣率 γ \gamma γ。

b. 折扣回報的定義
  • 折扣回報(Discounted Return)定義:
    G ( τ ) = ∑ t = 0 T ? 1 γ t r t + 1 G(\tau) = \sum_{t=0}^{T-1} \gamma^t r_{t+1} G(τ)=t=0T?1?γtrt+1?
    其中 γ \gamma γ 是折扣率, γ ∈ [ 0 , 1 ] \gamma \in [0, 1] γ[0,1]。折扣率的引入可以看作是對未來獎勵的一種降權(quán),即智能體更加關(guān)注即時獎勵和近期獎勵,而對于遠期獎勵的關(guān)注逐漸減弱。

    • γ \gamma γ 接近于 1 時,更加關(guān)注長期回報;
    • γ \gamma γ 接近于 0 時,更加關(guān)注短期回報。
  • 折扣回報的定義在數(shù)學上確保了總回報的有限性,同時在實際應用中使得智能體更好地平衡長期和短期回報。

3. 目標函數(shù)

??強化學習的目標是通過學習一個良好的策略來使智能體在與環(huán)境的交互中獲得盡可能多的平均回報。

a. 目標函數(shù)的定義

強化學習的目標函數(shù) J ( θ ) J(\theta) J(θ) 定義如下:
J ( θ ) = E τ ~ p θ ( τ ) [ G ( τ ) ] = E τ ~ p θ ( τ ) [ ∑ t = 0 T ? 1 γ t r t + 1 ] J(\theta) = \mathbb{E}_{\tau \sim p_{\theta}(\tau)}[G(\tau)] = \mathbb{E}_{\tau \sim p_{\theta}(\tau)}\left[\sum_{t=0}^{T-1} \gamma^t r_{t+1}\right] J(θ)=Eτpθ?(τ)?[G(τ)]=Eτpθ?(τ)?[t=0T?1?γtrt+1?]其中, θ \theta θ 表示策略函數(shù)的參數(shù), τ \tau τ 表示強化學習的軌跡。

  • 這個目標函數(shù)表達的是在策略 π θ \pi_{\theta} πθ? 下,智能體與環(huán)境交互得到的總回報的期望。(這個期望是對所有可能的軌跡進行的)
2. 目標函數(shù)的解釋
  • J ( θ ) J(\theta) J(θ) 可以看作是在策略 π θ \pi_{\theta} πθ? 下執(zhí)行動作序列的期望回報。
  • 引入折扣率 γ \gamma γ 是為了在計算期望回報時對未來獎勵進行折扣,使得智能體更加關(guān)注即時獎勵和近期獎勵。
  • 目標函數(shù) J ( θ ) J(\theta) J(θ) 的最大化等價于尋找最優(yōu)的策略參數(shù) θ \theta θ,使得智能體在與環(huán)境的交互中獲得最大的長期回報。
3. 優(yōu)化目標

??強化學習的優(yōu)化目標就是通過調(diào)整策略函數(shù)的參數(shù) θ \theta θ,使得目標函數(shù) J ( θ ) J(\theta) J(θ) 達到最大值。這個優(yōu)化問題通常通過梯度上升等優(yōu)化方法來解決,其中梯度由策略梯度定理給出。

4、智能體走迷宮

a. 問題

??讓一個智能體通過強化學習來學習走迷宮,如果智能體走出迷宮,獎勵為 +1,其他狀態(tài)獎勵為 0.智能體的目標是最大化期望回報.當折扣率 𝛾 = 1 時,智能體是否能學會走迷宮的技巧?如何改進?
在這里插入圖片描述

b. 解析

??走迷宮任務存在終止狀態(tài)(即走出迷宮),為回合式任務,智能體的交互不會無限地進行下去。由題意,當智能體出迷宮時有獎勵+1,其他時刻獎勵均為0。若折扣率為1,當該策略無法走出迷宮時,不會取得回報;當該策略可以走出迷宮,雖然達到了目標,但或許存在“繞遠”的情況,即此時不一定為最優(yōu)策略。

  • 改進
    • 嘗試不同的折扣率:嘗試使用較小的折扣率(0~1之間),以降低遠期回報的權(quán)重,更強調(diào)即時獎勵,加速學習過程。由目標函數(shù)可知,折扣率在0-1之間時,T越小則J越優(yōu),即智能體會學習到一個盡量快地走到終點的策略。
    • 限制軌跡長度: 智能體會存在n個能夠走出迷宮的軌跡(原地徘徊、來回繞路……),若考慮限制每個軌跡的長度,則可防止智能體無限地試驗,更有可能學到直接走出迷宮的策略。
    • 設(shè)置更復雜的獎勵結(jié)構(gòu):嘗試在迷宮中的每走一步都給予負獎勵-1,在成功走出迷宮時給予大的正獎勵100,以鼓勵智能體更快地找到走出迷宮的策略。
    • 使用深度強化學習:例如深度 Q 網(wǎng)絡(DQN)或者深度確定性策略梯度(DDPG),這些方法通常可以更好地處理復雜的狀態(tài)空間和動作空間,提高學習的效率。
http://m.risenshineclean.com/news/66030.html

相關(guān)文章:

  • 網(wǎng)絡營銷工作網(wǎng)站seo優(yōu)化價格
  • 直接做的黃頁視頻網(wǎng)站濟南seo優(yōu)化公司
  • 網(wǎng)站開發(fā)用什么系統(tǒng)比較好seo是做什么工作內(nèi)容
  • 做app布局參考哪個網(wǎng)站紹興seo排名外包
  • 免費行情軟件app網(wǎng)站mnu萬網(wǎng)域名查詢工具
  • 做鞋子批發(fā)的網(wǎng)站有哪些強力搜索引擎
  • 第三方免費做網(wǎng)站seo云優(yōu)化公司
  • 網(wǎng)站獲取訪客qq號碼怎么接app推廣的單子
  • app手機網(wǎng)站模板免費下載網(wǎng)站seo外包公司有哪些
  • 關(guān)于做網(wǎng)站書籍關(guān)鍵詞組合工具
  • 大學生個人網(wǎng)站怎么做seo技術(shù)學院
  • 網(wǎng)站如何在工信部備案信息網(wǎng)站設(shè)計公司模板
  • 南通網(wǎng)站建設(shè)seo班級優(yōu)化大師
  • 南和網(wǎng)站建設(shè)公司最近國際時事熱點事件
  • 鄭州seo優(yōu)化網(wǎng)站seo優(yōu)化心得
  • 快速搭建網(wǎng)站的方法百度投訴中心
  • icp網(wǎng)站備案密碼找回百度統(tǒng)計數(shù)據(jù)
  • 做圖賺錢的網(wǎng)站創(chuàng)量廣告投放平臺
  • 哪個網(wǎng)站做布料好智能建站網(wǎng)站模板
  • 建設(shè)寧波市分行的互聯(lián)網(wǎng)網(wǎng)站國際新聞今天最新消息
  • 群暉nas可以做網(wǎng)站嗎如何建立網(wǎng)站平臺
  • 沈陽網(wǎng)站建設(shè)推廣南京seo網(wǎng)絡推廣
  • 怎么用2013做網(wǎng)站谷歌廣告上海有限公司官網(wǎng)
  • 網(wǎng)站轉(zhuǎn)app免費百度搜索風云榜小說總榜
  • 營銷型網(wǎng)站收費搜狗登錄入口
  • WordPress采集中文永久免費版下載單頁關(guān)鍵詞優(yōu)化費用
  • 自己怎樣做淘客網(wǎng)站91永久免費海外地域網(wǎng)名
  • 最好網(wǎng)站建設(shè)公司排名寧波優(yōu)化網(wǎng)頁基本流程
  • 虛擬資源站碼支付wordpress全網(wǎng)營銷推廣公司
  • 淄博網(wǎng)站建設(shè)-中國互聯(lián)中小企業(yè)管理培訓班