毛豆语录

上周末在monterey的一家韩国店吃晚饭,一个豆腐汤就要二十块。记得以前都只要十来块的。老婆一个劲的说贵,毛毛说不要说不要说!每次老婆一说贵,毛豆毛就立刻让妈妈不要说。老婆问为什么?毛毛说这样别人会听见的!

毛豆妈带毛豆毛去商场买鞋,翻过的鞋没有完全放好,就走过去了。毛毛在后面,一一的把鞋摆放整齐。

乱七八糟

这两天圣诞节放假

难得有一天在家休息,啥也不用干

弄了一天的reinforcement learning,用别人的代码做了些小实验

感觉又回到大学的美好时光

脑子里想着新学到的东西,用新学到的东西解决什么样的事情,还有很多不明白的地方反复咀嚼

感觉真好

扫过一片网上文章,说machine learning大概三块,supervised learning, unsupervised learning和reinforcement learning。

前两个都比较熟,reinforcement读书的时候看过,但是从来没机会用到过

现在因着alphago的缘故又火起来了,自己也趁着搞计算机围棋的缘故重新学这些东西

发现这个领域其实近十年还是进展了不少。特别是解决了以前从来没想到过的问题。比如打游戏。从pixel到决策这个事情以前可能大家想都没想过。

又一个基础设施进步推动上层进步的案例。

cartpole

https://github.com/matthiasplappert/keras-rl/blob/master/examples/cem_cartpole.py

increased nb_steps_wamup and nb_steps and chance of stablization is high

cem = CEMAgent(model=model, nb_actions=nb_actions, memory=memory,
               batch_size=500, nb_steps_warmup=50000, train_interval=50, elite_frac=0.05)
cem.compile()

cem.fit(env, nb_steps=500000, visualize=False, verbose=1)

failed to find success parameters / models for dqn agent