AlphaZeroの論文公開「応用力の高さを証明」

AlphaGoZeroが人間の棋譜学習なしで今までの囲碁AIを上回る結果を出しました。
今回は「将棋、チェス」でどの程度の成果を出せたか、発表されています。
(詳細はこちらのページの右側、DownloadのPDFを参照ください)


1.強化学習成果

AlphaZeroは教師なし学習(人間の棋譜学習なし)で強化されているようです。
(第1世代TPU5000個で自己対戦し、第2世代TPU64個でニューラルネットワークを強化)
時間経過と強化過程の状況を以下にまとめたので参照ください。

【チェス】4時間でStockfishを上回る。
3日間強化したAlphaZeroはStockfishに28勝0敗72分
※2016年にトップチェスエンジン選手権世界チャンピオンのStockfish

【将 棋】2時間でelmoを上回る。
3日間強化したAlphaZeroはelmoに90勝8敗2分
2017年の世界コンピュータ将棋選手権優勝ソフトelmo

【囲 碁】8時間でAlphaGoLeeを上回る。
3日間強化したAlphaZeroはAlphaGoZero(3日間だけ強化)に60勝40敗

AlphaZeroはチェスでは8000position/秒、将棋では4000position/秒を探索している。
一方、Stockfishは7000万position/秒、elmoは3500万position/秒と桁違いの探索数だ。
AlphaZeroは探索数が少ないものの、高精度で効率的な探索を行えていることがわかります。


2、これからの展望

囲碁だけでなく、将棋やチェスでも短時間で最強クラスの強さに向上するようです。
現在は高い技術と資金力に支えられているもので、誰しも使えるものではありません。
しかし、完全情報ゲームでAIが圧倒したのでルールが定まった分野で成果が見込めそうです。
様々なものが効率的になる一方、人間の価値とは何なのか考えさせられる時代がきそうです。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

コメント

  1. キクヤン より:

    いつも大変参考にさせていただきありがとうございます。
    ここの部分がよくわからないのですが。
    【囲 碁】8時間でAlphaGoLeeを上回る。
    3日間強化したAlphaZeroはAlphaGoZero(3日間だけ強化)に60勝40敗

    • okao より:

      大前提として、AlphaZeroとAlphaGoZeroは別物です。
      また、AlphaGoZeroが始めの三日間だけ強化したものですね。(AlphaGoLee

      • キクヤン より:

        AlphaZeroは初めて聞いたので誤解してしまいました。
        まあ短期間によく進化するものですね。
        進化させている人間がすごいとも言えますが。
        ただ囲碁に関しては極一部のトップクラスの人たちにしか利用価値が無さそうにも思います。
        我々級位者にはAiが打つ手を最後まで到底読めませんので。