Speaker
Masahiro Nomura
Description
強化学習による機器の制御は非常に興味深い試みである。しかし、実際の機器を用いて強化学習を始めるには機器の損傷等のリスクがある。このリスクを避ける為に、実機を模擬したシュミレーターや事前に収集されたデータを使用する強化学習のアルゴリズムが考えられている。今回、簡単な例を用いてそれらのアルゴリズムによる強化学習を行なったのでその結果について議論する。
強化学習による機器の制御は非常に興味深い試みである。しかし、実際の機器を用いて強化学習を始めるには機器の損傷等のリスクがある。このリスクを避ける為に、実機を模擬したシュミレーターや事前に収集されたデータを使用する強化学習のアルゴリズムが考えられている。今回、簡単な例を用いてそれらのアルゴリズムによる強化学習を行なったのでその結果について議論する。