https://zhuanlan.zhihu.com/p/31749249
使用与AlphaGo Zero一模一样的方法(同样是MCTS+深度网络,实际还做了一些简化),它从零开始训练:
•4小时就打败了国际象棋的最强程序Stockfish!
•2小时就打败了日本将棋的最强程序Elmo!
•8小时就打败了与李世石对战的AlphaGo v18!

训练AlphaZero所需的计算资源也是海量的。这次Deepmind直接说了,需要5000个TPU v1作为生成自对弈棋谱。