高知大学 理学部
数理情報科学科
本田研究室 黄 嵩
B003G025k
2004年8月3日
要旨
近年,自律エージェントに関する研究が活発に行われており,強化学習はそれらの学習制御アルゴリズムとして注目されている。強化学習は教師なし学習の1種ではあるが、従来の人工知能における機械学習とは異なり、不確実な環境を扱うことができる、環境との相互作用を重視する、などの特徴を持っている。しかし、ある環境に最適化された強化学習の結果を用いたエージェントは、少し異なった環境に適応できるとは保証できない。よってある程度の汎用性を持ったエージェントの構成には、強化学習の結果からさらに汎用の知識を発掘する過程が必要になると考えられる。本論文では、この過程に決定木学習(C4.5)を用いることにより、汎用ルールを発掘し、これをエージェントの行動規範に埋め込むことにより汎用エージェントを構成することを提案する。
この考えを、壁にそって障害物が存在する2次元空間内で壁上を時計周りに移動するエージェントの移動問題に適用した。ここで、環境は座標、行動は上下左右いずれかへの移動とし、学習にはQ(λ〕を用いて方策にはMax選択とε-- greedy選択の両者を使用した。予備的な実験の結果、ε-greedy選択(ε=0.5)で、150エピソード程度で安定な学習に成功し正しい行動を習得することができた。この強化学習の結果からさらに詳細な環境(8近傍の壁の状態)とそれに対応する行動(Q値からMax選択で決定)を、属性とクラスのデータとしてサンプリングし、C4.5で学習をおこなった。その結果、周囲に壁が全くない状況(解不定)をのぞくと,エラー率0という精度のよい決定木を得ることができた。この決定木をルールとして埋め込んだ汎用エージェントを他の環境に適用した結果、異なる環境においても正しい行動をとることを観測し、このような枠組みが汎用エージェントの構成に有用であることを確認した。
目次
1、 はじめに・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・1-1
2.学習エージェントとは・・・・・・・・・・・・・・・・・・・・・・・・・・2-4
2.1 エージェントの概略と未来・・・・・・・・・・・・・・・・・・・・・・2-4
2.2 自律エージェントと知能・・・・・・・・・・・・・・・・・・・・・・・2-5
2.2.1 知的エージェント・・・・・・・・・・・・・・・・・・・・・・・・2-5
2.2.2 内部状態を持つエージェント・・・・・・・・・・・・・・・・・・・2-8
3.エージェントの行動様式の学習法・・・・・・・・・・・・・・・・・・・・3-10
3.1 強化学習・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・3-10
3.2 決定木・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・3-18
3.3 問題点・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・3-22
4.強化学習と決定木によるエージェント汎用ルールの学習・・・・・・・・4-23
4.1 実験の問題設定-壁に沿い時計回りに移動するエージェント・・・・・・4-23
4.2 手法・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・4-25
4.2.1 強化学習による行動様式のサンプリング・・・・・・・・・・・・・4-25
4.2.1.1 学習アルゴリズム・・・・・・・・・・・・・・・・・・・・・4-26
4.2.1.2 報酬の設定・・・・・・・・・・・・・・・・・・・・・・・・4-26
4.2.1.3 決定木の学習に使用するデータのサンプリング・・・・・・・・・4-26
4.2.2 決定木による汎用ルール形成・・・・・・・・・・・・・・・・・・4-27
4.2.3 汎用ルールによるシミュレーション・・・・・・・・・・・・・・・4-27
4.3 実験・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・4-27
4.3.1 実験条件・・・・・・・・・・・・・・・・・・・・・・・・・・・4-27
4.3.2 強化学習の結果 (イプシロンによる報酬の変化、最終的に得られた行動パターンの評価など)・・・・・・・・・・・・・・・・・・・・・・4-28
4.3.3 取得された決定木・・・・・・・・・・・・・・・・・・・・・・・4-31
4.3.4 シミュレーションによる汎用ルールの異なる環境への適用性検査・・4-34
4.4 議論・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・4-37
5.まとめ・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・5-38
謝辞
引用文献
参考資料
付録
1. はじめに
強化学習(reinforcement learning)とは, 環境との相互作用を通して, 適切な行動戦略を獲得するタイプの機械学習である。近年, 自律エージェント, 自律ロボットに関する研究が活発に行われており, 強化学習はそれらの学習制御アルゴリズムとして注目されている。自律エージェント, 自律ロボットは閉じた環境ではなく, 実世界の複雑な環境で動作しなければならない。そのため, 環境との相互作用を通して学習する強化学習の枠組みはこのような環境での学習に適している。また, 計算機能力の飛躍の向上, 理論面での著しい展開も強化学習が活発に研究されるきっかけとなっている。
強化学習の枠組みを図1に示す。学習する主体をエージェント(agent)という。エージェントは環境の状態を知覚し, 知覚した状態に応じて行動することができる。環境の状態はエージェントの行動によって変化し, エージェントは環境から報酬を受け取る。状態の知覚, 行動, 報酬の獲得という一連の流れをエージェントと環境との相互作用という。エージェントの目的は最終的な報酬の総和を最大化する行動戦略―知覚した状態に対してどの行動を取るか―を見つけることである。
強化学習には以下の五つの特徴がある。
(1) 教師なし学習である。
(2) 不確実な環境を扱う。
(3) 遅延報酬の処理が必要である。
(4) 試行錯誤的な探索を行う。
(5) 目標指向型である。

図1.1 強化学習の枠組み
一方, 決定木 (decision tree) とは, 機械学習の手法の1つで, データ項目間の関係を木構造で表示する分析手法である。分析目的とした項目に対し, その他の項目の中から, より因果関係の強いものを木の幹に, 弱いものを枝へと振分けて, 項目間の関係を表現する。
データの自動収集, データベース技術の発展により, 膨大な量のデータがデータベースや, データ倉庫に蓄積されているが, そこから必要とする情報を取り出すのは, なかなか難しい。現在解決法の1つとして, データマイニングが浮上している。データマイニングは興味深い(当たり前でない, 潜在的, これまで知られていなかった, しかも, 役に立つと思われる)情報あるいはパターンを大規模データベースから抽出するための様々なアプローチをさすが, その代表的な分析手段の1つととして, 決定木が存在する。
決定木は, 知識・法則を, 頂点ノードから終端に至るまでの, 分割テストのIF-THENルールとして簡単に表現することができる。
決定木による知識発見は図1.2の様に示される。
関係データベースからのデータの取得 |
↓ |
↓ |
知識発見システムの実行 |
↓ |
(入力フォーマット変換) |
↓ |
(C4.5) |
↓ |
(出力フォーマット変換) |
↓ |
↓ |
ルールベースへの変換 |
図1.2, 決定木による知識発見
本研究では, エージェントの振る舞いをある環境での強化学習によって習得させ, さらに, その強化学習の結果から汎用的なルールを決定木によってマイニングし, この結果を利用して, 汎用エージェントを構成することを試みる。
第2章では, まず学習エージェントとは何かについて述べる。次に第3章では, 本件急で用いるエージェントの振る舞いの学習法として強化学習(特にSarsa学習, Q学習)と決定木学習について述べる。第4章では, 強化学習と決定木による汎用エージェント構成の枠組みを述べ, 壁に沿って時計回りに移動するエージェントの行動習得という問題にこの枠組みを適用し, その有用性を評価する。第5章では論文の全体についてまとめる。