AlphaZero“通用棋类AI”问世：完爆AlphaGo？

2017-12-07 10:42

来源:网易科技

　　日前，DeepMind团队发表了最新论文，提出了全新的强化学习算法AlphaZero，它是一种可以从零开始，通过自我对弈强化学习在多种任务上达到超越人类水平的新算法，堪称“通用棋类AI”。

　　据了解，AlphaZero算法可以8个小时训练击败李世石版本AlphaGo;12小时训练击败世界顶级的国际象棋程序Stockfish;14小时训练击败世界顶级将棋程序Elmo。这是DeepMind团队继AlphaGo Zero的研究问世之后，带给我们的又一全新算法，它是“更通用的版本”。

　　此外，我们看到这次的AlphaZero与AlphaGo Zero有几点不同，首先AlphaGo Zero是在假设结果为赢/输二元的情况下，对获胜概率进行估计和优化。而AlphaZero会将平局或其他潜在结果纳入考虑，对结果进行估计和优化。其次，AlphaGo和AlphaGo Zero会转变棋盘位置进行数据增强，而AlphaZero不会。第三，AlphaZero只维护单一的一个神经网络，这个神经网络不断更新，而不是等待迭代，四，AlphaZero中，所有对弈都重复使用相同的超参数，因此无需进行针对特定某种游戏的调整。

关注公众号“多特资源号”

内容来源于网络，不代表本站观点，侵删

热搜新闻

平仓头寸是什么意思京东开战美团：0佣金真能搅动外卖格局吗马斯克的6人智囊团竟然都是00后工程师：掌握着上百万名美政府员工生杀大权原京东首席执行官徐雷预测《哪吒2》票房：灯塔准确度比猫眼更高谷歌AI大牛吴永辉加盟字节跳动负责AI基础研究探索工作曾被雷军千万年薪挖角曝天才少女罗福莉已到新岗位上班法拉利CEO现身零跑获朱江明亲自接待本人证实：双方都收获满满地球上最聪明的AI！马斯克发布Grok 3：秒杀GPT 超越DeepSeek 微信可一次性删除所有单向好友：但必须好友达到10000人高德回应太乙真人8.8元语音包由AI合成：个别台词由演员自配后续不更新

热搜资讯