最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!

《最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!》系傻大方资讯网小编转载,希望对您有所帮助。

今天给大家介绍我们的一个好朋友丁少,他每天都会推送一个全球最疯狂的黑科技。



【这是一条,既没有收辣条,也没有收切糕的推荐!最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!

最近谷歌 AI 阿尔法狗又升级虐人了,下面有请丁少!

--------------------------

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!
大家好,我是丁少。

大家应该都知道,支付宝天天喊着:“距离无现金社会还有xxxx天。”

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!
我觉得谷歌也该挂个倒计时了:“距离机器人社会还有xxxx天。”

此话怎讲?

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!
还不是因为那条“狗”……

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!

最近,谷歌家的 DeepMind 团队打造的围棋人工智能 AlphaGo,又有了升级版!

这次叫做——AlphaGo Zero

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!

这个 Zero 可不是什么修修 BUG,提提配置的小升级,这次是个大迭代啊。

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!
它的厉害之处全部总结到它的名字里了,Zero,零。

这代表着,Zero 完全不靠人类的经验和知识,一切从零开始,自己和自己对弈,来获得成长。

而且。。

仅仅自学了3天时间,Zero 就能以100:0的优势完胜击败李世乭那个版本的 AlphaGo 了。

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!

3天……从一片空白开始……100:0完胜……真的不知道该说些什么好了……

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!
给大家详细解释一下吧,我们先从击败李世乭的那只“狗”说起吧,来看看以前的 AlphaGo 是怎么成长为围棋高手的?

AlphaGo Lee(击败李世乭的版本)

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!
首先,人类给了 AlphaGo 3万多幅专业棋手对弈的棋谱,同时还让数千人与其对战,来训练它的神经网络。(划重点,这一步很重要)

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!

训练出来的神经网络有两个:策略网络(Policy Network)和价值网络(Value Network)。

策略网络

这个策略网络简单理解就是:给它输入棋盘的全局状况,网络会算出以往人们在余下空地上每一个点落子的概率。

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!
这个概率是哪儿来的?

就是通过学习那3万多幅人类的棋谱总结出来的啊。

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!
所以,这就是人类传授给了它经验。

(其实 AlphaGo 还根据局部特征总结出了一个快速走子策略 Rollout Policy,不展开讲,道理差不多,但速度比上面这个快很多。)

价值网络

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!

价值网络稍稍高级一点,你这样理解:

接下来,狗比如说要在某点落子了,它把这个落子的点输入给网络。

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!
网络会在“脑”中把接下来的棋默默给你下完,直到分出胜负。

通过这么一个过程,它就能算出这一步落在这点的胜率。

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!
这两个网络通过蒙特卡洛树搜索(MCTS)一结合,就可以让 AlphaGo 决定出每一步棋该怎么下。

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!

虽然这套系统中,AlphaGo 也会疯狂地自我对弈,并不断地反馈调整各个部分的权重。

但一切都来源于最开始,人类传授给它的经验。

那么,如今的 Zero 又有何不同呢?

AlphaGo Zero

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!
最大的不同就是:人类不给它“学习资料”了,没有棋谱,没有与人对战,自力更生。

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!

Zero 抛弃了当年的两个神经网络,而是合并成一个,辅以一个强大的搜索算法。

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!
它完完全全从自我对弈、随机下棋开始,说得难听一点就是——乱下。

这事儿要是搁人类,没下两盘就得掀棋盘走人了。

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!
但机器就是有耐力呀,而且速度极快,普通人可能下了半天,它可能只需要一秒。

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!

这就使得 Zero 拥有了神一般的成长速度。

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!
有多快?

前面也说了,自学了3天时间,然后去跟打败李世乭那个版本的 AlphaGo 对战。

100:0,完胜。

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!
第40天,棋力超过击败柯洁的 AlphaGo Master,成为世界上最强棋手。

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!
这还没完。

以前的 AlphaGo 都是训练了好几个月的,这次的 Zero 只用了3天就成为高手,那它肯定是用了更强的硬件吧。

可是并没有。。。

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!
击败李世乭的 AlphaGo Lee 用了48个 TPU。

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!

而 Zero 只用了4个。

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!
这种 Bug 般的存在,我特么还能说什么……

现在,AlphaGo 拥有了这样的学习能力,完全可以利用它探索科学中人类难以解决的问题。

比如 DeepMind 的 CEO 哈萨比斯就说,可以让 AlphaGo Zero 的后代去寻找室温超导体材料。

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!

最强AI自学3天围棋,100比0完胜前辈……谁也拦不住这条狗了!
应用前景真的是无可限量啊。

最后,咱们再来看看 AlphaGo 团队负责人大卫·席尔瓦接受采访的视频吧,有字幕哦。