[三观颠覆之二]成长,学习和经历

“读万卷书,行万里路” — 董其昌

“读书破万卷,下笔如有神。”– 杜甫

alphago的智能系统来自于三个支柱:1,读谱,学习前人下法,policy network通过阅读数百万的棋谱来预测棋盘上每一点的价值。2,价值评估,value network,这个也是通过无数的棋谱来获得一种局面优劣的的直觉,3。计算,蒙特卡洛树搜索,形势复杂时,必须算很多步才可以找到安全或者好的一招。

这三个支柱基本上跟人下棋用到的方法一样。

但是alphago的终极武器不是这个,而是自我学习。

而自我学习,也是一个人,一个社会进步的终极动力。

一个人从诞生之日,就开始了自我学习之旅。它开始只能躺着,转动眼球,小手胡乱挥舞。它不断的动五个指头,挥动手臂,慢慢它学会抓东西。慢慢学会翻身。慢慢学会爬,慢慢学会直立,慢慢学会行走,慢慢学会跑。每一个进步,在成人看来理所当然,而对它来说是费尽了无数次的失败与尝试的结果。它很辛勤的学习,让自己健康的成长。

当我们逐渐长大,我们反而忘记了学习的重要,丧失了学习的热情。我们骄傲的以为我们学够了。

而alphago就像一个初生的婴孩,它不知疲倦的学习。

三月初人机大战之时,它能达到李世石的高度吗?

达到之后,它还能进步多远?人类会被它甩多远?

自我学习又是什么?

婴孩是如何学会抓东西的?它如何学习直立起来的?

也许答案都可以从alphago里面找到。

这个玩意叫reinforcement learning,强化学习。

很多年前读人工智能时,学到过一个算法。但是这么些年还从未用过。

一个人在学习投篮时,他必须不断的练习,不断的尝试,根据反馈来调整自己的动作。这就是强化学习。

一个人之所以成熟,乃是经历了很多的风霜。

爱迪生尝试了很多的材料,经历了无数的失败,终于发明灯泡。

可以说,进步源于不断的尝试。失败是成功的必要组成部分。

而这本质上都是强化学习。

alphago通过不断的左右互搏来进化自己。它终将成为什么样的超级怪兽呢?

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s