The Power Of Value Network

https://gogameguru.com/can-alphago-defeat-lee-sedol/

Questioning your values

One of the things that separates professionals from strong amateurs is their ability to look at even a complex board position and tell who is ahead.

This question of ‘value’ of a board position has been a non-trivial problem incomputer Go since inception, and DeepMind’s solution to it is the main thing separating its program from other Go AIs.

Deterministic, zero-sum games (like Go) actually have an objective value function across all board positions, but Go has too many combinations to ever calculate this precise value.

AlphaGo uses a neural network model to approximate the value function, and this model was created in three steps, building two other models along the way:

  1. A ‘policy network’ (i.e. a model giving a probability distribution over possible moves) built using ‘supervised learning’ (SL – where we get the model to make a prediction, then we give it the answer and it adjusts the model to ‘learn’ from the answer) to predict a human’s move, given a board position.

    AlphaGo’s supervised learning policy network successfully predicted human moves 57% of the time, when trained on 160,000 6–9dan KGS games, with a total of 30 million board positions.

  2. Another policy network, built by ‘reinforcement learning’ (RL) – taking the supervised learning network and getting it to play subsequent versions of itself and learn from the game outcomes, to predict the move most likely to result in a victory.

    The reinforced learning policy played 1.28 million games against different versions of itself, resulting in a very strong policy network for selecting moves.

  3. Finally, the ‘value network’, which was built by supervised learning & regression over board positions and values generated from the SL and RL networks, and predicts the expected value (i.e. probability of a victory) of a board position.

    To do this, AlphaGo generated 30 million games, playing the first n-1 moves with the SL network, then selecting a random legal move, and then using the RL network to select all moves until the game ends and a value (i.e. win/lose) is known.

    The value network was then trained on just one board position from each game – the one subsequent to the first RL network move – to minimize the error in predicted value.

This complex process resulted in a value function that is closer to the ‘real’ value function for Go than anyone has ever achieved before.

In fact using the value network alone, AlphaGo beat all other computer AIs!

Advertisements

[三观颠覆之四]元智慧,第四次工业革命的开端?

第一次工业革命,机器取代手工。纺织机发明,蒸汽机车发明。

第二次工业革命,电力,电话,汽车。

第三次工业革命,电脑,互联网?

每一次进步,都是生产效率的极大提高。每一次,都是机器的进步。

alphago的横空出世,会算是第四次工业革命的开端么?

很多年前学习马列,说工业革命时机器吃人。而那时,我们还觉得机器,也就是重复做一些事先制定好的动作的东西而已。没有人的智慧,机器不过是废铁。或者说,机器的智慧,归根结底是人的智慧。

电脑出现后,计算机的运算能力瞬间超越人类,并且突飞猛进。人类写各式的软件,帮助做各类的运算。但是,我们还是觉得这还是人的智慧。不过是人设计的算法加上高速的运算而已。

即使是深蓝战胜了卡斯帕罗夫,也不过是穷举而已。

围棋是个特殊的东西。穷举行不通。下围棋的人讨论的很多都是大场,厚味,打入,先手,本手这些很虚但又是大家能理解的东西。这些东西无法定义。它是棋手共有的一种感觉。从来没有人说通过计算来衡量这种感觉。

alphago如何学到这种感觉的?它又是如何定义这种感觉的?

当alphago战胜创始人时,它是如何自我超越的?

当它的技术和机器人结合,可以自己学习投篮,踢球,做汉堡,炒菜,送货,开车,甚至设计。

alphago所拥有的智慧,是一种元智慧么?meta intelligence。一种能自我寻找并且掌握智慧的能力。

这一次,人类会真的被机器吃掉么?

“半人马”型选手

http://tech.sina.com.cn/d/v/2016-01-28/doc-ifxnzanh0216880.shtml

更让人意外的是人工智能的出现并未削弱纯人类国际象棋选手的水平。恰恰相反,在廉价且超级智能的国际象棋软件的激励下,下国际象棋的人数、锦标赛的数量以及选手的水平都达到了历史之最。与深蓝首次战胜卡斯帕罗夫时相比,拥有国际象棋大师头衔的人数至少翻了一番。现今排名第一的人类国际象棋选手马格努斯? 卡尔森(Magnus Carlsen)就曾和人工智能一起训练,并且被认为是所有人类国际象棋选手中最接近电脑的一个。他还是有史以来评分最高的人类国际象棋大师。

1997 年,沃森的前辈——IBM 的(超级电脑)深蓝(Deep Blue)在一场著名的人机对弈中击败了当时具有统治地位的国际象棋大师加里? 卡斯帕罗夫(Garry Kasparov)。当电脑又赢得了几场比赛后,人类选手基本上对这种比赛失去了兴趣。你或许会认为这就是故事的结局(如果不是人类历史的终结),但卡斯帕罗夫意识到,如果他也能像深蓝一样即时访问包含先前所有棋局中棋路的大规模数据库,就能表现得更好。如果人工智能选手使用数据库工具被认为是公平的,那么人类为什么不能使用呢?为了实现用数据库加强人类大师的心智的想法,卡斯帕罗夫率先提出了“人加机器”(manplus-machine)的概念,即在比赛中用人工智能增强国际象棋选手水平,而不是让双方互相对抗。

如今,这种比赛被称为自由式国际象棋比赛,它们和混合武术对抗赛相似,选手们可以使用任何他们想用的作战技巧。你可以在没有协助的情况下比赛;也可以成为极其聪明的国际象棋电脑的傀儡,仅仅按照它的指示移动棋子;或者你可以当一个卡斯帕罗夫提倡的 “半人马”型选手,也就是人类和人工智能结合的赛博格(Cyborg)1。这种选手会听取那些人工智能提出的走棋建议,偶尔也会否决他们,颇似我们开车时使用GPS 智能导航的情景。对任何模式的选手开放的2014 年自由式国际象棋对抗锦标赛上,纯粹使用人工智能国际象棋引擎的选手赢得了42 场比赛,而“半人马”型选手则赢得了53 场。当今世界上最优秀的国际象棋选手队伍就是“半人马”型的Intagrand,它由一个人类团队和几个不同的国际象棋程序组成。

深度学习:能击败欧洲围棋冠军,还能防恶意软件-科技频道-手机搜狐

http://m.sohu.com/n/437576832/?_trans_=000115_3w

Göttingen大学举行的对16000个恶意软件样本进行识别测试中,来自西门子CERT、Bit-Defender、McAfee、Trend(趋势科技)、AVG、卡巴斯基、Sophos以及其他安全公司平均识别率为61%,而Deep Instinct对于恶意软件的识别率则高达98.86%。

[三观颠覆之三]机器成为人类的老师

樊麾获应氏杯参赛资格 将执裁谷李人机大战

代表法国参赛的樊麾二段表现出色,击败各路竞争对手,取得冠军,获得代表欧洲参加今年4月举行的第8届应氏杯世界职业围棋锦标赛的资格。
取得欧洲职业冠军杯后,樊麾表示自己状态回升不错,而且感觉与电脑对弈之后,实力境界有所提升

三人行,必有我师焉

在未来,机器必为我师

人类老师是人,精力有限,耐心有限。而机器的精力和耐心是无限的。

人类老师很多是庸师,毁人不倦。而机器的质量是绝对有保证的。

人类老师很容易被超越。而机器的水平可以超过人类一大截。

我看到在一个大山上,机器站在高处,拖住人类往上攀登。

THE BATTLE BETWEEN MAN AND MACHINE: AI MEETS WORLD GO CHAMP

http://news.medill.northwestern.edu/chicago/the-battle-between-man-and-machine-ai-meets-world-go-champ/

Hassabis said the secret is in the difference between the narrow artificial intelligence (AI) of Deep Blue and the general artificial intelligence (GAI) of AlphaGo. Every move that Deep Blue made was coded. If there was an error in coding, the system would fail. Only the goal of the game is coded into AlphaGo’s program and then it must learn through its observations and algorithms how to play and win the game.
“GAI from the ground up is built to be adaptive and flexible and deal with gracefully the unexpected and learn how to deal with that,” said Hassabis.“The goal the system is given here is to maximize the score everything else is learned from scratch its not told anything about the rules of the game,” said Hassabis.

[三观颠覆之二]成长,学习和经历

“读万卷书,行万里路” — 董其昌

“读书破万卷,下笔如有神。”– 杜甫

alphago的智能系统来自于三个支柱:1,读谱,学习前人下法,policy network通过阅读数百万的棋谱来预测棋盘上每一点的价值。2,价值评估,value network,这个也是通过无数的棋谱来获得一种局面优劣的的直觉,3。计算,蒙特卡洛树搜索,形势复杂时,必须算很多步才可以找到安全或者好的一招。

这三个支柱基本上跟人下棋用到的方法一样。

但是alphago的终极武器不是这个,而是自我学习。

而自我学习,也是一个人,一个社会进步的终极动力。

一个人从诞生之日,就开始了自我学习之旅。它开始只能躺着,转动眼球,小手胡乱挥舞。它不断的动五个指头,挥动手臂,慢慢它学会抓东西。慢慢学会翻身。慢慢学会爬,慢慢学会直立,慢慢学会行走,慢慢学会跑。每一个进步,在成人看来理所当然,而对它来说是费尽了无数次的失败与尝试的结果。它很辛勤的学习,让自己健康的成长。

当我们逐渐长大,我们反而忘记了学习的重要,丧失了学习的热情。我们骄傲的以为我们学够了。

而alphago就像一个初生的婴孩,它不知疲倦的学习。

三月初人机大战之时,它能达到李世石的高度吗?

达到之后,它还能进步多远?人类会被它甩多远?

自我学习又是什么?

婴孩是如何学会抓东西的?它如何学习直立起来的?

也许答案都可以从alphago里面找到。

这个玩意叫reinforcement learning,强化学习。

很多年前读人工智能时,学到过一个算法。但是这么些年还从未用过。

一个人在学习投篮时,他必须不断的练习,不断的尝试,根据反馈来调整自己的动作。这就是强化学习。

一个人之所以成熟,乃是经历了很多的风霜。

爱迪生尝试了很多的材料,经历了无数的失败,终于发明灯泡。

可以说,进步源于不断的尝试。失败是成功的必要组成部分。

而这本质上都是强化学习。

alphago通过不断的左右互搏来进化自己。它终将成为什么样的超级怪兽呢?

花粉过敏了好久

这几天更严重了

开始咳嗽,浑身无力

早上看了内部关于围棋的东西

基本上也都是自然论文上面的东西

还是被强烈撼倒了

下午在家睡觉

梦见自己变成一个evaluation function,就像那个value network

value network就是一个人的价值观,一个局势是好还是坏