论文代写-英语日语韩语德语俄语法语
论文翻译-英语日语韩语德语俄语法语
论文修改-英语日语韩语德语俄语法语
代写作业代考试题考卷-英语日语韩语德语俄语法语
作文报告申请书文章等代写-英语日语韩语德语俄语法语
研究计划书代写-英语日语韩语德语俄语法语
西班牙语意大利语论文代写翻译修改
论文发表-英语日语韩语德语俄语法语
英语 English
日语 日本語
韩语한국의
法语 Français
德语 Deutsch
俄语 Pусский
西语 Español
意语 Italiano
·英语论文 ·日语论文
·韩语论文 ·德语论文
·法语论文 ·俄语论文

名称:智尚工作室
电话:0760-86388801
传真:0760-85885119
手机(微信):13380876598
地址:广东中山市学院路1号
网址:www.zsfy.org
E-Mail:cjpdd
@vip.163.com
商务QQ:875870576
微信二维码

业务联系
隐藏文章
エージェントの行動様式の学習法
添加时间: 2011-4-8 9:50:25 来源: 作者: 点击数:7043

1.   3.1 強化学習

 機械学習の1つである強化学習は, 報酬を利用して方策を最適化することで, エージェントを環境に適応させることを目的とする.ここでは強化学習においてエージェントが得た知識を利用して, 方策を改善する手法を説明する.

 強化学習(Reinforcement Learning)は動物の適応的な行動獲得を工学的観点からモデル化した手法である.強化学習の特徴は最適な行動を人間がエージェント(学習主体(ex.ロボット))に教えるのではなく, エージェント自身が環境との試行錯誤を通して得た行動の結果から, 自律的に意思決定の方策(policies)をより良いものへと構築していく学習手法であるという点にある.より具体的には, 目的を達成した際にスカラー値の報酬を与えることによってのみ学習を行う.強化学習では, エージェントは環境の状態(state)を観測し, それに応じて行動 (action)を選択する.この際, エージェントの選択した行動によって報酬 (reward)が与えられる.また, エージェントは状態, もしくは状態と行動の組に対する評価値(value)を持っており, 行動はこれらの評価値によって決定される. (e.g.,  次の状態の評価値が最大になるように行動を選択する.又は, 評価値を気にせず探索的な行動を選択する.) 評価値はその状態における現在から未来にわたって得られる報酬の割引かれた累積和を示し, エージェントは評価値を最大化することを目的とする.その結果, エージェントは自律的に意志決定の方策 (policy) をより良いものへと構築していくことができる.

環境


3.1 強化学習の枠組

強化学習の枠組を3.1に示しているように, エージェントは, 環境をセンサによって知覚し, それに対して自身の取る行動を選択し, 自律的に行動していくことができる知的システムで, 通常環境に対して行動を選ぶための行動規範を内部に持っている。この行動規範を強化学習によって, 探査的な行動を行い, 目的に沿った行動をした時に報酬を与えられるものとし, これの報酬を使いながら, 環境と行動の相互作用を観測しながら更新し, より複雑な環境に対しても, 目的にあった行動をするように, 行動規範を改善していて, 自身の振る舞いを改善していくことができる。

次に強化学習の手法のうち, 今回実験に使った方法である, TD制御とTD制御の2つのアルゴリズム, SarsaQ-learning)について説明し, これらのアルゴリズムの特徴, 利点, 欠点について紹介する。

 まず, TD制御(時間的差分学習;Temporal Difference Learning), 環境のダイナミクスのモデルを用いずに, 経験から状態stに対する行動価値関数V(st)を直接学習することができ, 最終結果を待たずに, 他の推定値の学習結果を一部利用し, 推定値を更新する予測法で, 時刻t+1で直ちに目標値を作り, 観測した報酬r(t+1)と推定量V(St+1)を使って適切な更新を行う。最も単純なTD法はTD(0)と呼ばれ, 以下のようになる。

          V(st)    V(st)+α[rt+1+γV(st+1)-V(st)]       (3.1)

TD更新は, rt+1+γV(st+1)を目標とする。そして, 利点としては, 以下のようになる。

 ・環境モデル;つまり報酬と次の状態の確率分布を必要としない。

・オンライン手法として完全な漸進型の手続きに実装できること。

次にTD(0)でのSarsaQ-learningについて説明する。

 Sarsa, 価値の差から学習するという意味において強化学習の中心となっている考え方である。Sarsa, 環境のモデル(遷移確率と報酬分布) を必要とせず, 相互作用によって得た経験(experience) から直接学習ができる.経験とは, 環境との1 回の相互作用から得られる状態, 行動, 報酬, 次状態の4 つ組(st,  at,  rt+1,  st+1) である。Sarsaは与えられた方策πの価値関数Vπを推定するためのアルゴリズムで, 方策評価の方法によって, 最適価値関数Vを求める方策改善である。本章では, 方策評価に限って説明する。Sarsa, 環境のモデルが分からないため, エージェントは実際に環境と相互作用してみる必要がある.時刻t における環境との1 回の相互作用から得られる経験を用いて, 現在の状態St の価値V(St) を以下の式によって更新する。

V(st) V(st) + αδt               (3.2)

δt = rt+1 +γV(st+1) -V(st)             (3.3)

αは学習率と呼ばれるパラメータで, (0, 1)の間の実数である。式(3.2) , TD 誤差(TD-error) と呼ばれ, 次状態の割引価値に報酬を上乗せした値から現在の価値を差し引いた値である。次の表にSarsaのアルゴリズムを掲載する。


3-1  Sarsaアルゴリズム

       V(s) を任意に初期化し, π を評価対象の方策に初期化する

       各エピソード1 に対して繰り返し:

1.1                       s を初期化

1.2                       エピソードの各ステップに対して繰り返し:

3.1.1                           a s に対してπ で与えられる行動a を取り2), 報酬r と次状態s を観察す

          

V(s) V(s) + α[r + γV(s) − V(s)]

s ← s.

3.1.2                            s が終端状態3)ならば繰り返しを終了

注:  1) 学習の初期状態から終端状態までをエピソードという.

2) ここで, greedy な行動選択を取れば方策改善が行われ, 最適価値関数V∗ に収束する.

3) 終端状態とは, エージェントに与えたタスクが達成された状態である

Sarsaの特徴をまとめると以下のようになる。

・ 環境のモデル(遷移関数と報酬分布) を必要とせず, 実際に相互作用した経験から学習が可能である。

・ オンライン手法として漸進型の手続きで実装できる。すなわち, 経験を得るにしたがって状態が正しく評価される。また, 方策改善を行えば行動も改良されていく。

 もう1つのQ-learning, Sarsaをベースにしたアルゴリズムである。Sarsaと同じく環境のモデルを必要とせず, 経験から学習ができる。Sarsaと異なるのは, 状態価値V(s)ではなく,  行動価値Q(s,  a)の更新を行う点である。また, 方策評価とともに方策改善も更新式に明示的に含まれているため最適価値関数に収束する。行動価値Q(s,  a) とは, 方策πの元で状態s において行動a を取ったときの価値で, その後に方策πに従った期待報酬として, 次のように定義される.

Qπ(s, a) =Eπ{Rt|st = s, at = a}=Eπ{∞ k=0γk rt+k+1|st = s, at = a}         (3.4)

ここでは状態価値V(s) と異なり, 各状態で取る行動を含めて価値を評価する。Q 学習もSarsa同じく経験から学習する.時刻t における環境との1 回の相互作用から得られる経験を用いて, 現在の状態st で行動at を取ったときの行動価値Q(st,  at) を以下の式によって更新する.

Q(st,  at)Q(st,  at) +α[rt+1 +γmaxaQ(st+1, a)Q(st,  at)]           (3.5)

更新規則はSarsaと似ているが, 次状態st+1において, 最大の行動価値を持つ行動aを選択している点が異なっている.これは, 方策改善を表しており, 更新規則に明示的に組み込まれている.

 方策の選択にはmax選択とε-greedy 方策がよく用いられる。Max選択は最大の行動価値を持つ行動arg maxa Q(s,  a) を選択するというものである。一方ε-greedy 方策は確率εでランダムな行動を選択し, それ以外は, 最大の行動価値を持つ行動arg maxa Q(s,  a) を選択するというものである。ε-greedyではε大きさによって, 探索の程度を変化させうることができる。次の表にQ学習のアルゴリズムをまとめる。

3-2 Q-learningのアルゴリズム

(1) Q(s,  a) を任意に初期化

(2) 各エピソードに対して繰り返し:

(2-1) s を初期化

(2-2) エピソードの各ステップに対して繰り返し:

(2-2-1) Q から導かれる方策(例えばQ に対する greedy 方策) を使って, s での行動a を選択する

(2-2-2) 行動a を取り, r, s を観察する

Q(s,  a) ← Q(s,  a) + α[r + γ argmax Q(s,  a) − Q(s,  a)]

s ← s

(2-2-3) s が終端状態ならば繰り返しを終了

Q学習は, 得られた経験に基づいて 更新を繰り返し行うことによって最適価値関数に収束することが証明されている。

Q 学習の特徴をまとめると以下のようになる.

・方策改善を更新式に明示的に含んでいる。

・最適価値関数・最適方策に収束することが保証されている。

・学習が遅く, 大量の相互作用が必要である。

2                                   パラメータに敏感であり, 調整が必要である。

Q学習やSarsaなどのTD手法は適格度トレースと結合して, さらに効率的に学習することの出来そうな一般的手法TD(λ)を得ることが出来る。適格度トレースを用いた手法は1ステップ手法に比べると計算量(計算時間のこと)が多くなるが, その代わりに, 学習速度はかなり速くなる。

 適格度トレースの見方は理論的(前方観測的な見方(forward view))と技法的(後方観測的な見方(backward view))2つの見方がある。そして, 前方観測的な見方のTD (λ)アルゴリズムは, nステップ・バックアップを平均化する方法の1つである。平均にはnステップ分のバックアップすべてが含まれており, その各各はλnー1(0≦λ≦1)に比例して重み付けされる。結果として得られるバックアップはλ収益(λ-return) ( 3.6)と呼ぶ。

        Rλt(1-λ) ∞ n=1λn-1Rn t              (3.6)

その更新は以下式(3.7)のようになる。

    Rλt(1-λ)Σ(T-t-1)n=1λn-1Rnt+λT-t-1R           (3.7)

ここで, Tはエピソードの最終時間ステップである。よって, λ収益アルゴリズムとは,    λ収益を用いてバックアップを実行するアルゴリズムである。従って, 前方観測的な見方は, 訪問した各状態に対して, 将来起こりうるすべての報酬を眺め, 最良の組み合わせ方を決定する見方である。

一方, TD(λ)の後方観測的な見方(技法的), 概念的にも計算上でも, 単純であるという理由から有用である。特に, 前方観測的な見方は実際には直接的に実装可能ではない。

なぜなら, 各ステップにおいて, 何ステップか後に起こることの知識を使うので, 因果関係がわからないからである。後方観測的な見方は, 前方観測的な見方を近似するための, 因果関係のある漸進的メカニズムを提供し, オフラインの場合には正確に近似する。

  TD(λ)の後方観測的な見方においては, 各状態に関連する付加的なメモリ変数が存在し, それが適格度トレースである。時刻tにおける状態sの適格度トレースをet(s)R+(R+は正の実数である)と表す。各ステップにおいて, この適格度トレースはすべての状態に対してγλだけ減哀し, そのステップで訪問された1個の状態の適格度トレースはすべてのs∊Sに対して式(3.8)のように1だけ増加する。この種の適格度トレースを累積トレースと呼ぶ。

      γλet1(s)  (s≠stの時)

et(s)

      γλet1(s)1 (s=stの時)                (3.8)

ここで, γは割引率で, λはトレース減哀パラメータである。累積トレースは, 強化事象が発生したとして, 各状態が学習上の変化を受けることが「適格」であることの度合いをしめしている。ここで, 強化事象は, 時々刻刻の1ステップTD誤差が式3.9である。

δ=γt+1+γV(st+1)V(s)                (3.9

TD(λ)の後方観測的な見方においては, 全体的なTD誤差信号は, 最近訪問した非ゼロトレース信号を持つすべての状態に対して, 比例配分的な更新を生じさせる, つまり, すべてのs∊Sに対して, (3.10)のようになる。

   ΔV(st)=αδet(s)                     (3.10)

よって, TD(λ)の技法的定義が与えられる。そして, オンライン表形式TD(λ)のアルゴリズムは以下のように表される。


3-3 オンライン表形式TD(λ)のアルゴリズム

  1. V(s)を任意に初期化し, すべてのsSに対してe(s)0とする
  2. 各エピソードに対して繰り返し:

(ア)sを初期化

(イ)エピソードの各ステップに対して繰り返し:

       a      sに対してπで与えられる行動aを取り, 報酬rと次状態s’を観測する

     δ=γt+1+γV(st+1)V(s)

        e(s)      e(s)+1

        すべてのsについて:

         V(s)      V(s)+αδe(s)

         e(s)      γλe(s)

        s   s’

(2-2-2) sが終端状態ならば繰り返し終了.

 TD(λ)でのSarsaQ-learningSarsa(λ)Q(λ)と呼ぶ, この2つの手法について説明しよう。Sarsa(λ)考え方は:TD(λ)予測手法を状態ではなく, 状態行動対に対して適用することである。すべてのs, aに対して(3.11)で表示したようになる。

     Qt+1(s, a)=Qt(s, a)+ αδtet(s, a)

ここで,

     δt=rt+1+γQt(st+1, at+1)- Qt(st, at)

であり, すべてのs, aに対して

                     γλet-1(s, a)+1  (s=stかつa=atの時)

     et(s, a)=

                         γλet-1(s, a)  (それ以外の時)            (3.11)

である。Sarsa(λ)も方策オン型のアルゴリズムであり, 現在の方策πに対する行動価値Q(s, a)を近似し, 現在の方策に対する近似された価値に基づいて徐々に方策を改善する。表3-4Sarsa(λ)のアルゴリズムを示しておく。


3-4 テーブル型Sarsa(λ)のアルゴリズム

(1) Q(s, a)を任意に初期化し, すべてのs, aに対して, et(s, a)=0とする

(2) 各エピソードに対して繰り返し:

(2-1)  s, aを初期化

(2-2) エピソードの各ステップに対して繰り返し:

(2-2-1) 行動aを取り, r, s’を観測する

(2-2-2) Qから導かれる方策(例えばεグリーディ)を用いてs’で取る行動a’を選択して以下の更新をおこなう。

δ     r+γQ(s’, a’)- Q(s, a)

e(s, a)      e(s, a)+1

すべてのs, aに対して

         Q(s, a)    Q(s, a)+ αδe(s, a)

e(s, a)    γλe(s, a)

       s      s’  ;  a       a’

(2-2-3) sが終端状態であれば終了.

 Q(λ)適格度トレースとQ学習を組み合わせた手法で, 最初に提案した研究者達の名を取ってそれぞれ, WatkinsQ(λ)PengQ(λ)と呼ぶ。理論的, あるいは前方観測的な見方から見ると, TD(λ)Sarsa(λ)とは異なり, WatkinsQ(λ)はバックアップ中に, エピソードの終わりまでずっと先読みすることはしない。Q(λ)は次の探査的行動のみを先読みする。行動価値の知識に基づき, 最初の探査的であれば, WatkinsQ(λ)はrt+1+γmaxaQt(st+1, a)に向けてQt(st, at)の1ステップ更新を行う。一方, WatkinsQ(λ)の技法的, あるいは後方観測的な見方から見ると, 最初に, すべての状態行動対のトレースはγλの割合で減哀するが, あるいは探査的行動が取られた場合は0に設定される。次に, 現在の状態と行動に対応するトレースは1だけ増加する。全体的な結果は次式(3.12)になる。

           γλet-1(s, a) (Qt-1(st, at)= maxaQt-1(st, a)の時

et(s, a)=I sstI aat+

           0     (それ以外の時)              (3.12)

I xy一致関数(identity-indicator function), x=yならばその値は1, それ以外であれば0である。このアルゴリズムの残りの部分は次のように定義される。

    Qt+1(s, a)=Qt(s, a)+ αδtet(s, a)                  (3.13)

ここで,

    δt=rt+1+γmaxa’Qt(st+1, a’)- Qt(st, at)                (3.14)

である。

 表3-5WatkinsQ(λ)アルゴリズムをまとめて示す。

3-5 WatkinsQ(λ)アルゴリズム

 (1) Q(s, a)を任意に初期化し, すべてのs, aに対してe(s, a)=0とする

 (2) 各エピソードに対して繰り返し:

 (2-1)  s, aを初期化

 (2-2)  エピソードの各ステップに対して繰り返し:

 (2-2-1)  行動aを取り, r, s’を観測する

(2-2-2)  Qから導かれる方策(例えばεグリーディ)を用いて

       s’で取る行動a’を選択する

       a*    argmaxbQ(s’, b)

            (a’の場合と最大値が等しいならば;a*     a’)

          δ     r+γQ(s’, a*)- Q(s, a)

    e(s, a)       e(s, a)+1

    すべてのs, aについて: 

        Q(s, a)