AlphaGoZeroの論文概要

本日、Deepmind社の囲碁AI「AlphaGoZero」の論文と棋譜が公開されました。
なお、論文提出日は2017年4月7日、nature誌の審査通過が9月13日です。
論文の概要はこちら、棋譜データはこちらを参照ください。
※10/25(09:20):一部文章を修正しました。

1.AlphaGoZeroの変更点

AlphaGoZeroは人間の棋譜を一切使われない(教師なし学習)バージョンです。
今回の大きな変更点は、モンテカルロシミュレーション(roll-out)を使われないことです。
以前まで、ある局面の候補手を上げて一定の精度で手を予測(読みの部分)できましたが、
正確な読みや勝率計算の精度を向上させるため、長手数並べる必要がありました。
しかし、今回は長手数並べて想定する要素を使用せず、強化学習の経験を基に打ちます。
※読みの要素を支えるモンテカルロ木探索は採用されています。

2.AlphaGoZeroの強化学習(self-play)

AlphaGoZeroは自己対戦による強化学習を採用しています。
自己対戦を繰り返し、その結果と対局中の判断との誤差を修正して強くなります。
なお、1手毎に1600回のシミュレーション(約0.4秒)をしているそうです。
以下に強化学習の実証結果の推移をまとめました。

3時間:人間の初心者のように石を取ることに執着する。
19時間:碁の死活の基礎や周囲への影響力を学んでいる。
3日目:李世乭九段に4-1で勝利したAlphaGoLee(Elorate3739)に成長。
21日目:柯潔九段に3-0で勝利したAlphaGoMaster(Elorate4858)に到達。
40日目:AlphaGoLeeに100勝0敗、AlphaGoMasterに89勝11敗。(Elorate5185)
※参考までに、Elorate200差は75%の確率で勝利するようです。

40日間の自己対戦で2900万局を生成しました。
今回の結果で、より効率的に囲碁AIを強くできる方法を提示しましたが、
高性能のTPUを搭載したPCによるもので、他の囲碁AIに応用できるかは不明です。

3.AlphaGoZeroの自己対戦譜を見て

一番印象的だったのは、中盤の戦闘力が飛躍的に向上していることです。
手の付け方や石運びの呼吸が異質なものとなっており、呆然としてしまいます。
当たり前のことですが、人間とは違う視点で碁を打っていると判断せざるを得ません。
AlphaGoMasterの対人間60局、自己対戦55局を通して人間も進歩したように見えたが、
まだまだ囲碁AIの境地に至るには時間がかかるような気がします。

「編集後記」
論文を読んでいたら、机の上で寝落ちしてしまい記事を上げるのが遅くなりましたorz
今回は細かい数式や仕組みを省き、誰でも概要を掴める内容にしたつもりです。
Policy-networkとValue-networkはどこにいったの?と思う方が多いと思います。
端的に言うと、2つのネットワークを1つにまとめたのがAlphaGoZeroの特徴です。

囲碁視点では強さばかり目がいきますが、今回は機能を最適化するのがテーマでしょう。
AlphaGoZeroは4TPUs(PC1台)で人間のデータなしに強くすることができました。
ルールが定まっている分野において、応用範囲が非常に広いと見て良いでしょう。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする