強化学習の新形態

「表現・力関係・予測」の三位一体

11月19日にDeepmind社より学習の手法について論文が発表された。(こちらの論文を参照)
今回は以下の3つの関数を同時に鍛えることにより、AlphaZeroを上回る性能を実現した。
・過去の観測結果を元に手の候補手を上げる表現関数
・数々の候補手の中から有力なものを選出するダイナミックス関数(力関係)
・観測結果と報酬結果を総合して最適な答えを算出する値関数(価値予測ネットワーク)
この検索では、ポリシー予測(過去の学習結果による予測)でなく値予測のみ使われるという。

【図の説明】hは過去の観測結果に基づく候補手。fはpolisyとvalueをまとめた関数。gは候補手の内の最適なものを選出するダイナミクス関数。aは観測結果(π)をまとめたもの。uは観測結果と値関数を総合し、次の一手を決める関数。AとBは実際の検索手順を示したもので、Cは強化学習の流れを示している。


MuZero(今回の方法のAI)の16blockでAlphaZeroの20blockを上回ったようだ。
計算資源の削減しつつ、効率的な学習を実現していることを証明したと言えるだろう。
碁以外にも将棋やチェスなどでも適応でき、応用範囲が広いこともデータで示されている。
完璧な想定、状況が設定できない現実世界の事象に適応できる可能性を秘めているようだ。

「編集後記」
Golaxyとは方法は異なると思いますが、勝率だけでなく値を加味する点は似てそうです。
確率のみで利益を最大化させることを苦手としたAIが別次元に達するかもしれません。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

コメント

  1. ヲー より:

    leela zeroをはじめ今の多くのAIはアルファ碁ゼロを基にできているプログラムなので、今後このmuzeroがそれらにとって代わるのでしょうか?

    • okao より:

      AlphaZeroの登場以降、計算資源の削減へ多くの試みがなされています。今回の論文もその一つですが、これを契機に流れが変わるかもしれません。ただし、どの程度効率化されたか定量的にはわからず、開発する側からするとそこまで変わっていないと判断するかもしれません。