國內(nèi)做外貿(mào)網(wǎng)站的有哪些資料遼寧網(wǎng)站建設(shè)
文章目錄
- 一、強化學習問題
- 1、交互的對象
- 2、強化學習的基本要素
- 3、策略(Policy)
- 4、馬爾可夫決策過程
- 5、強化學習的目標函數(shù)
- 1. 總回報(Return)
- 2. 折扣回報(Discounted Return)
- a. 折扣率
- b. 折扣回報的定義
- 3. 目標函數(shù)
- a. 目標函數(shù)的定義
- 2. 目標函數(shù)的解釋
- 3. 優(yōu)化目標
- 4、智能體走迷宮
- a. 問題
- b. 解析
一、強化學習問題
??強化學習的基本任務是通過智能體與環(huán)境的交互學習一個策略,使得智能體能夠在不同的狀態(tài)下做出最優(yōu)的動作,以最大化累積獎勵。這種學習過程涉及到智能體根據(jù)當前狀態(tài)選擇動作,環(huán)境根據(jù)智能體的動作轉(zhuǎn)移狀態(tài),并提供即時獎勵的循環(huán)過程。
1、交互的對象
??在強化學習中,有兩個可以進行交互的對象:智能體和環(huán)境
-
智能體(Agent):能感知外部環(huán)境的狀態(tài)(State)和獲得的獎勵(Reward),并做出決策(Action)。智能體的決策和學習功能使其能夠根據(jù)狀態(tài)選擇不同的動作,學習通過獲得的獎勵來調(diào)整策略。
-
環(huán)境(Environment):是智能體外部的所有事物,對智能體的動作做出響應,改變狀態(tài),并反饋相應的獎勵。
2、強化學習的基本要素
??強化學習涉及到智能體與環(huán)境的交互,其基本要素包括狀態(tài)、動作、策略、狀態(tài)轉(zhuǎn)移概率和即時獎勵。
-
狀態(tài)(State):對環(huán)境的描述,可能是離散或連續(xù)的。
-
動作(Action):智能體的行為,也可以是離散或連續(xù)的。
-
策略(Policy):智能體根據(jù)當前狀態(tài)選擇動作的概率分布。
-
狀態(tài)轉(zhuǎn)移概率(State Transition Probability):在給定狀態(tài)和動作的情況下,環(huán)境轉(zhuǎn)移到下一個狀態(tài)的概率。
-
即時獎勵(Immediate Reward):智能體在執(zhí)行動作后,環(huán)境反饋的獎勵。
3、策略(Policy)
??策略(Policy)就是智能體如何根據(jù)環(huán)境狀態(tài) 𝑠 來決定下一步的動作 𝑎(智能體在特定狀態(tài)下選擇動作的規(guī)則或分布)。
- 確定性策略(Deterministic Policy) 直接指定智能體應該采取的具體動作
- 隨機性策略(Stochastic Policy) 則考慮了動作的概率分布,增加了對不同動作的探索。
上述概念可詳細參照:【深度學習】強化學習(一)強化學習定義
4、馬爾可夫決策過程
??為了簡化描述,將智能體與環(huán)境的交互看作離散的時間序列。智能體從感知到的初始環(huán)境 s 0 s_0 s0? 開始,然后決定做一個相應的動作 a 0 a_0 a0?,環(huán)境相應地發(fā)生改變到新的狀態(tài) s 1 s_1 s1?,并反饋給智能體一個即時獎勵 r 1 r_1 r1?,然后智能體又根據(jù)狀態(tài) s 1 s_1 s1?做一個動作 a 1 a_1 a1?,環(huán)境相應改變?yōu)?span id="vxwlu0yf4" class="katex--inline"> s 2 s_2 s2?,并反饋獎勵 r 2 r_2 r2?。這樣的交互可以一直進行下去: s 0 , a 0 , s 1 , r 1 , a 1 , … , s t ? 1 , r t ? 1 , a t ? 1 , s t , r t , … , s_0, a_0, s_1, r_1, a_1, \ldots, s_{t-1}, r_{t-1}, a_{t-1}, s_t, r_t, \ldots, s0?,a0?,s1?,r1?,a1?,…,st?1?,rt?1?,at?1?,st?,rt?,…,其中 r t = r ( s t ? 1 , a t ? 1 , s t ) r_t = r(s_{t-1}, a_{t-1}, s_t) rt?=r(st?1?,at?1?,st?) 是第 t t t 時刻的即時獎勵。這個交互過程可以被視為一個馬爾可夫決策過程(Markov Decision Process,MDP)。
關(guān)于馬爾可夫決策過程可詳細參照:【深度學習】強化學習(二)馬爾可夫決策過程
5、強化學習的目標函數(shù)
??強化學習的目標是通過學習到的策略 π θ ( a ∣ s ) \pi_{\theta}(a|s) πθ?(a∣s) 來最大化期望回報(Expected Return),即希望智能體執(zhí)行一系列動作以獲取盡可能多的平均回報。
- 總回報:對于一次交互過程的軌跡,總回報是累積獎勵的和。
- 折扣回報:引入折扣率,考慮未來獎勵的權(quán)重。
1. 總回報(Return)
??總回報(Total Return)指智能體與環(huán)境一次交互過程中所累積的獎勵。給定一個策略 π ( a ∣ s ) \pi(a|s) π(a∣s),智能體與環(huán)境的交互過程可以通過軌跡 τ \tau τ 來表示,而這個軌跡的總回報 G ( τ ) G(\tau) G(τ) 可以通過累積獎勵的方式進行計算。
-
總回報 G ( τ ) G(\tau) G(τ) 定義:
G ( τ ) = ∑ t = 0 T ? 1 r t + 1 G(\tau) = \sum_{t=0}^{T-1} r_{t+1} G(τ)=t=0∑T?1?rt+1?其中 T T T 表示交互的總時長, r t + 1 r_{t+1} rt+1? 表示在時刻 t + 1 t+1 t+1 獲得的即時獎勵。 -
總回報也可以通過獎勵函數(shù)的形式表示:
G ( τ ) = ∑ t = 0 T ? 1 r ( s t , a t , s t + 1 ) G(\tau) = \sum_{t=0}^{T-1} r(s_t, a_t, s_{t+1}) G(τ)=t=0∑T?1?r(st?,at?,st+1?)
這里, r ( s t , a t , s t + 1 ) r(s_t, a_t, s_{t+1}) r(st?,at?,st+1?) 表示在狀態(tài) s t s_t st? 下執(zhí)行動作 a t a_t at? 后轉(zhuǎn)移到狀態(tài) s t + 1 s_{t+1} st+1? 所獲得的獎勵。
2. 折扣回報(Discounted Return)
a. 折扣率
??對于存在終止狀態(tài)(Terminal State)的任務,當智能體到達終止狀態(tài)時,交互過程結(jié)束,這一輪的交互稱為一個回合(Episode)或試驗(Trial)。一般強化學習任務都是回合式任務(Episodic Task),如下棋、玩游戲等。
??然而,對于一些持續(xù)式任務(Continuing Task),其中不存在終止狀態(tài),智能體的交互可以無限進行下去,即 T = ∞ T = \infty T=∞。在這種情況下,總回報可能會無窮大。為了解決這個問題,引入了折扣率 γ \gamma γ。
b. 折扣回報的定義
-
折扣回報(Discounted Return)定義:
G ( τ ) = ∑ t = 0 T ? 1 γ t r t + 1 G(\tau) = \sum_{t=0}^{T-1} \gamma^t r_{t+1} G(τ)=t=0∑T?1?γtrt+1?
其中 γ \gamma γ 是折扣率, γ ∈ [ 0 , 1 ] \gamma \in [0, 1] γ∈[0,1]。折扣率的引入可以看作是對未來獎勵的一種降權(quán),即智能體更加關(guān)注即時獎勵和近期獎勵,而對于遠期獎勵的關(guān)注逐漸減弱。- 當 γ \gamma γ 接近于 1 時,更加關(guān)注長期回報;
- 當 γ \gamma γ 接近于 0 時,更加關(guān)注短期回報。
-
折扣回報的定義在數(shù)學上確保了總回報的有限性,同時在實際應用中使得智能體更好地平衡長期和短期回報。
3. 目標函數(shù)
??強化學習的目標是通過學習一個良好的策略來使智能體在與環(huán)境的交互中獲得盡可能多的平均回報。
a. 目標函數(shù)的定義
強化學習的目標函數(shù) J ( θ ) J(\theta) J(θ) 定義如下:
J ( θ ) = E τ ~ p θ ( τ ) [ G ( τ ) ] = E τ ~ p θ ( τ ) [ ∑ t = 0 T ? 1 γ t r t + 1 ] J(\theta) = \mathbb{E}_{\tau \sim p_{\theta}(\tau)}[G(\tau)] = \mathbb{E}_{\tau \sim p_{\theta}(\tau)}\left[\sum_{t=0}^{T-1} \gamma^t r_{t+1}\right] J(θ)=Eτ~pθ?(τ)?[G(τ)]=Eτ~pθ?(τ)?[t=0∑T?1?γtrt+1?]其中, θ \theta θ 表示策略函數(shù)的參數(shù), τ \tau τ 表示強化學習的軌跡。
- 這個目標函數(shù)表達的是在策略 π θ \pi_{\theta} πθ? 下,智能體與環(huán)境交互得到的總回報的期望。(這個期望是對所有可能的軌跡進行的)
2. 目標函數(shù)的解釋
- J ( θ ) J(\theta) J(θ) 可以看作是在策略 π θ \pi_{\theta} πθ? 下執(zhí)行動作序列的期望回報。
- 引入折扣率 γ \gamma γ 是為了在計算期望回報時對未來獎勵進行折扣,使得智能體更加關(guān)注即時獎勵和近期獎勵。
- 目標函數(shù) J ( θ ) J(\theta) J(θ) 的最大化等價于尋找最優(yōu)的策略參數(shù) θ \theta θ,使得智能體在與環(huán)境的交互中獲得最大的長期回報。
3. 優(yōu)化目標
??強化學習的優(yōu)化目標就是通過調(diào)整策略函數(shù)的參數(shù) θ \theta θ,使得目標函數(shù) J ( θ ) J(\theta) J(θ) 達到最大值。這個優(yōu)化問題通常通過梯度上升等優(yōu)化方法來解決,其中梯度由策略梯度定理給出。
4、智能體走迷宮
a. 問題
??讓一個智能體通過強化學習來學習走迷宮,如果智能體走出迷宮,獎勵為 +1,其他狀態(tài)獎勵為 0.智能體的目標是最大化期望回報.當折扣率 𝛾 = 1 時,智能體是否能學會走迷宮的技巧?如何改進?
b. 解析
??走迷宮任務存在終止狀態(tài)(即走出迷宮),為回合式任務,智能體的交互不會無限地進行下去。由題意,當智能體出迷宮時有獎勵+1,其他時刻獎勵均為0。若折扣率為1,當該策略無法走出迷宮時,不會取得回報;當該策略可以走出迷宮,雖然達到了目標,但或許存在“繞遠”的情況,即此時不一定為最優(yōu)策略。
- 改進
- 嘗試不同的折扣率:嘗試使用較小的折扣率(0~1之間),以降低遠期回報的權(quán)重,更強調(diào)即時獎勵,加速學習過程。由目標函數(shù)可知,折扣率在0-1之間時,T越小則J越優(yōu),即智能體會學習到一個盡量快地走到終點的策略。
- 限制軌跡長度: 智能體會存在n個能夠走出迷宮的軌跡(原地徘徊、來回繞路……),若考慮限制每個軌跡的長度,則可防止智能體無限地試驗,更有可能學到直接走出迷宮的策略。
- 設(shè)置更復雜的獎勵結(jié)構(gòu):嘗試在迷宮中的每走一步都給予負獎勵-1,在成功走出迷宮時給予大的正獎勵100,以鼓勵智能體更快地找到走出迷宮的策略。
- 使用深度強化學習:例如深度 Q 網(wǎng)絡(DQN)或者深度確定性策略梯度(DDPG),這些方法通常可以更好地處理復雜的狀態(tài)空間和動作空間,提高學習的效率。