您当前的位置: 首页 >  搜索

静静的喝酒

暂无认证

  • 5浏览

    0关注

    99博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

蒙特卡洛树搜索方法介绍——后台规划(background planning)与决策时规划(decision-time planning)

静静的喝酒 发布时间:2022-08-06 16:11:10 ,浏览量:5

蒙特卡洛树搜索方法介绍——后台规划与决策时规划
  • 引言
    • 后台规划
      • 回顾:动态规划算法
      • 回顾:Dyna-Q算法
    • 决策时规划

引言

上一节介绍了优先级遍历算法(反向聚焦),本节将从规划执行时机的角度对算法进行解析。

后台规划 回顾:动态规划算法

在介绍后台规划之前,回顾一下动态规划算法的迭代过程: 动态规划算法如下表所示:

算法基于随机MDP的状态价值函数 V π ( s ) V_\pi(s) Vπ​(s)策略迭代算法输入(Input)初始策略 π ( a ∣ s ) \pi(a \mid s) π(a∣s),动态特性函数 P P P,奖赏函数 r r r,折扣系数 γ \gamma γ初始化操作(Initialization operation)1. 对 ∀ s ∈ S \forall s \in \mathcal S ∀s∈S,初始化状态价值函数 V π ( s ) V_\pi(s) Vπ​(s); 2. 阈值 θ \theta θ设置为一个较小的实数值;策略评估(Policy Evaluation)1. repeat 对每一轮策略评估 τ = 0 , 1 , 2 , ⋯ \tau=0,1,2,\cdots τ=0,1,2,⋯2.    d e l t a ← 0 delta \gets 0 delta←03.    for 每个状态 s s s do:4.        v ← V π ( s ) v \gets V_\pi(s) v←Vπ​(s)5.        V π ( s ) ← ∑ a ∈ A ( s ) π ( a ∣ s ) ∑ s ′ , r P ( s ′ , r ∣ s , a ) [ r + γ V π ( s ′ ) ] V_\pi(s) \gets \sum_{a \in \mathcal A(s)} \pi(a \mid s) \sum_{s',r}P(s',r \mid s,a)[r +\gamma V_\pi(s')] Vπ​(s)←∑a∈A(s)​π(a∣s)∑s′,r​P(s′,r∣s,a)[r+γVπ​(s′)]6.        d e l t a ← max ⁡ ( d a l t a , ∣ v − V π ( s ) ∣ ) delta \gets \max(dalta,\mid v -V_\pi(s) \mid) delta←max(dalta,∣v−Vπ​(s)∣)7.    end for8. until d e l t a < θ delta < \theta delta
关注
打赏
1664446683
查看更多评论
立即登录/注册

微信扫码登录

0.0590s