當前位置：首頁 > news >正文

國內(nèi)做外貿(mào)網(wǎng)站的有哪些資料遼寧網(wǎng)站建設(shè)

news 2025/7/15 8:52:29

國內(nèi)做外貿(mào)網(wǎng)站的有哪些資料,遼寧網(wǎng)站建設(shè),用illustrator做網(wǎng)站,河北智能網(wǎng)站建設(shè)文章目錄一、強化學習問題1、交互的對象2、強化學習的基本要素3、策略（Policy）4、馬爾可夫決策過程5、強化學習的目標函數(shù)1. 總回報（Return）2. 折扣回報（Discounted Return）a. 折扣率b. 折扣回報的定義 3.…

文章目錄

一、強化學習問題
- 1、交互的對象
- 2、強化學習的基本要素
- 3、策略（Policy）
- 4、馬爾可夫決策過程
- 5、強化學習的目標函數(shù)
- - 1. 總回報（Return）
  - 2. 折扣回報（Discounted Return）
  - - a. 折扣率
    - b. 折扣回報的定義
  - 3. 目標函數(shù)
  - - a. 目標函數(shù)的定義
    - 2. 目標函數(shù)的解釋
    - 3. 優(yōu)化目標
  - 4、智能體走迷宮
  - - a. 問題
    - b. 解析

一、強化學習問題

??強化學習的基本任務是通過智能體與環(huán)境的交互學習一個策略，使得智能體能夠在不同的狀態(tài)下做出最優(yōu)的動作，以最大化累積獎勵。這種學習過程涉及到智能體根據(jù)當前狀態(tài)選擇動作，環(huán)境根據(jù)智能體的動作轉(zhuǎn)移狀態(tài)，并提供即時獎勵的循環(huán)過程。

1、交互的對象

??在強化學習中，有兩個可以進行交互的對象：智能體和環(huán)境

智能體（Agent）：能感知外部環(huán)境的狀態(tài)（State）和獲得的獎勵（Reward），并做出決策（Action）。智能體的決策和學習功能使其能夠根據(jù)狀態(tài)選擇不同的動作，學習通過獲得的獎勵來調(diào)整策略。
環(huán)境（Environment）：是智能體外部的所有事物，對智能體的動作做出響應，改變狀態(tài)，并反饋相應的獎勵。

2、強化學習的基本要素

??強化學習涉及到智能體與環(huán)境的交互，其基本要素包括狀態(tài)、動作、策略、狀態(tài)轉(zhuǎn)移概率和即時獎勵。

狀態(tài)（State）：對環(huán)境的描述，可能是離散或連續(xù)的。
動作（Action）：智能體的行為，也可以是離散或連續(xù)的。
策略（Policy）：智能體根據(jù)當前狀態(tài)選擇動作的概率分布。
狀態(tài)轉(zhuǎn)移概率（State Transition Probability）：在給定狀態(tài)和動作的情況下，環(huán)境轉(zhuǎn)移到下一個狀態(tài)的概率。
即時獎勵（Immediate Reward）：智能體在執(zhí)行動作后，環(huán)境反饋的獎勵。

3、策略（Policy）

??策略（Policy）就是智能體如何根據(jù)環(huán)境狀態(tài) 𝑠 來決定下一步的動作 𝑎（智能體在特定狀態(tài)下選擇動作的規(guī)則或分布）。

確定性策略（Deterministic Policy） 直接指定智能體應該采取的具體動作
隨機性策略（Stochastic Policy） 則考慮了動作的概率分布，增加了對不同動作的探索。

上述概念可詳細參照：【深度學習】強化學習（一）強化學習定義

4、馬爾可夫決策過程

??為了簡化描述，將智能體與環(huán)境的交互看作離散的時間序列。智能體從感知到的初始環(huán)境 $s_0$ 開始，然后決定做一個相應的動作 $a_0$ ，環(huán)境相應地發(fā)生改變到新的狀態(tài) $s_1$ ，并反饋給智能體一個即時獎勵 $r_1$ ，然后智能體又根據(jù)狀態(tài) $s_1$ 做一個動作 $a_1$ ，環(huán)境相應改變?yōu)?span id="vxwlu0yf4" class="katex--inline"> $s_2$ ，并反饋獎勵 $r_2$ 。這樣的交互可以一直進行下去： $s_0, a_0, s_1, r_1, a_1, \ldots, s_{t-1}, r_{t-1}, a_{t-1}, s_t, r_t, \ldots,$ 其中 $r_t = r(s_{t-1}, a_{t-1}, s_t)$ 是第 $t$ 時刻的即時獎勵。這個交互過程可以被視為一個馬爾可夫決策過程（Markov Decision Process，MDP）。

關(guān)于馬爾可夫決策過程可詳細參照：【深度學習】強化學習（二）馬爾可夫決策過程

5、強化學習的目標函數(shù)

??強化學習的目標是通過學習到的策略 $\pi_{\theta}(a|s)$ 來最大化期望回報（Expected Return），即希望智能體執(zhí)行一系列動作以獲取盡可能多的平均回報。

總回報：對于一次交互過程的軌跡，總回報是累積獎勵的和。
折扣回報：引入折扣率，考慮未來獎勵的權(quán)重。

1. 總回報（Return）

??總回報（Total Return）指智能體與環(huán)境一次交互過程中所累積的獎勵。給定一個策略 $\pi(a|s)$ ，智能體與環(huán)境的交互過程可以通過軌跡 $\tau$ 來表示，而這個軌跡的總回報 $G(\tau)$ 可以通過累積獎勵的方式進行計算。

總回報 $G(\tau)$ 定義：
$G(\tau) = \sum_{t=0}^{T-1} r_{t+1}$ 其中 $T$ 表示交互的總時長， $r_{t+1}$ 表示在時刻 $t + 1$ 獲得的即時獎勵。
總回報也可以通過獎勵函數(shù)的形式表示：
$G(\tau) = \sum_{t=0}^{T-1} r(s_t, a_t, s_{t+1})$
這里， $r(s_t, a_t, s_{t+1})$ 表示在狀態(tài) $s_t$ 下執(zhí)行動作 $a_t$ 后轉(zhuǎn)移到狀態(tài) $s_{t+1}$ 所獲得的獎勵。

2. 折扣回報（Discounted Return）

a. 折扣率

??對于存在終止狀態(tài)（Terminal State）的任務，當智能體到達終止狀態(tài)時，交互過程結(jié)束，這一輪的交互稱為一個回合（Episode）或試驗（Trial）。一般強化學習任務都是回合式任務（Episodic Task），如下棋、玩游戲等。
??然而，對于一些持續(xù)式任務（Continuing Task），其中不存在終止狀態(tài)，智能體的交互可以無限進行下去，即 $\infty$ 。在這種情況下，總回報可能會無窮大。為了解決這個問題，引入了折扣率 $\gamma$ 。

b. 折扣回報的定義

折扣回報（Discounted Return）定義：
$G(\tau) = \sum_{t=0}^{T-1} \gamma^t r_{t+1}$
其中 $\gamma$ 是折扣率， $\gamma \in [0, 1]$ 。折扣率的引入可以看作是對未來獎勵的一種降權(quán)，即智能體更加關(guān)注即時獎勵和近期獎勵，而對于遠期獎勵的關(guān)注逐漸減弱。
- 當 $\gamma$ 接近于 1 時，更加關(guān)注長期回報；
- 當 $\gamma$ 接近于 0 時，更加關(guān)注短期回報。
折扣回報的定義在數(shù)學上確保了總回報的有限性，同時在實際應用中使得智能體更好地平衡長期和短期回報。

3. 目標函數(shù)

??強化學習的目標是通過學習一個良好的策略來使智能體在與環(huán)境的交互中獲得盡可能多的平均回報。

a. 目標函數(shù)的定義

強化學習的目標函數(shù) $J(\theta)$ 定義如下：
$J(\theta) = \mathbb{E}_{\tau \sim p_{\theta}(\tau)}[G(\tau)] = \mathbb{E}_{\tau \sim p_{\theta}(\tau)}\left[\sum_{t=0}^{T-1} \gamma^t r_{t+1}\right]$ 其中， $\theta$ 表示策略函數(shù)的參數(shù)， $\tau$ 表示強化學習的軌跡。

這個目標函數(shù)表達的是在策略 $\pi_{\theta}$ 下，智能體與環(huán)境交互得到的總回報的期望。（這個期望是對所有可能的軌跡進行的）

2. 目標函數(shù)的解釋

$J(\theta)$ 可以看作是在策略 $\pi_{\theta}$ 下執(zhí)行動作序列的期望回報。
引入折扣率 $\gamma$ 是為了在計算期望回報時對未來獎勵進行折扣，使得智能體更加關(guān)注即時獎勵和近期獎勵。
目標函數(shù) $J(\theta)$ 的最大化等價于尋找最優(yōu)的策略參數(shù) $\theta$ ，使得智能體在與環(huán)境的交互中獲得最大的長期回報。

3. 優(yōu)化目標

??強化學習的優(yōu)化目標就是通過調(diào)整策略函數(shù)的參數(shù) $\theta$ ，使得目標函數(shù) $J(\theta)$ 達到最大值。這個優(yōu)化問題通常通過梯度上升等優(yōu)化方法來解決，其中梯度由策略梯度定理給出。

4、智能體走迷宮

a. 問題

??讓一個智能體通過強化學習來學習走迷宮，如果智能體走出迷宮，獎勵為 +1，其他狀態(tài)獎勵為 0．智能體的目標是最大化期望回報．當折扣率 𝛾 = 1 時，智能體是否能學會走迷宮的技巧？如何改進？
在這里插入圖片描述

b. 解析

??走迷宮任務存在終止狀態(tài)（即走出迷宮），為回合式任務，智能體的交互不會無限地進行下去。由題意，當智能體出迷宮時有獎勵+1，其他時刻獎勵均為0。若折扣率為1，當該策略無法走出迷宮時，不會取得回報；當該策略可以走出迷宮，雖然達到了目標，但或許存在“繞遠”的情況，即此時不一定為最優(yōu)策略。

改進
- 嘗試不同的折扣率：嘗試使用較小的折扣率（0~1之間），以降低遠期回報的權(quán)重，更強調(diào)即時獎勵，加速學習過程。由目標函數(shù)可知，折扣率在0-1之間時，T越小則J越優(yōu)，即智能體會學習到一個盡量快地走到終點的策略。
- 限制軌跡長度：智能體會存在n個能夠走出迷宮的軌跡(原地徘徊、來回繞路……)，若考慮限制每個軌跡的長度，則可防止智能體無限地試驗，更有可能學到直接走出迷宮的策略。
- 設(shè)置更復雜的獎勵結(jié)構(gòu)：嘗試在迷宮中的每走一步都給予負獎勵-1，在成功走出迷宮時給予大的正獎勵100，以鼓勵智能體更快地找到走出迷宮的策略。
- 使用深度強化學習：例如深度 Q 網(wǎng)絡（DQN）或者深度確定性策略梯度（DDPG），這些方法通常可以更好地處理復雜的狀態(tài)空間和動作空間，提高學習的效率。

查看全文

http://m.risenshineclean.com/news/66030.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

國內(nèi)做外貿(mào)網(wǎng)站的有哪些資料遼寧網(wǎng)站建設(shè)

文章目錄

一、強化學習問題

1、交互的對象

2、強化學習的基本要素

3、策略（Policy）

4、馬爾可夫決策過程

5、強化學習的目標函數(shù)

1. 總回報（Return）

2. 折扣回報（Discounted Return）

a. 折扣率

b. 折扣回報的定義

3. 目標函數(shù)

a. 目標函數(shù)的定義

2. 目標函數(shù)的解釋

3. 優(yōu)化目標

4、智能體走迷宮

a. 問題

b. 解析

相關(guān)文章：

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

文章目錄

一、強化學習問題

1、交互的對象

2、強化學習的基本要素

3、策略（Policy）

4、馬爾可夫決策過程

5、強化學習的目標函數(shù)

1. 總回報（Return）

2. 折扣回報（Discounted Return）

a. 折扣率

b. 折扣回報的定義

3. 目標函數(shù)

a. 目標函數(shù)的定義

2. 目標函數(shù)的解釋

3. 優(yōu)化目標

4、智能體走迷宮

a. 問題

b. 解析

相關(guān)文章：

2、強化學習的基本要素

3、策略（Policy）

4、馬爾可夫決策過程

5、強化學習的目標函數(shù)

4、智能體走迷宮