dremel first

最近搞个pipeline

开始简单弄了个方法,匆匆忙忙花了一两个礼拜写production code

进了production后发现出来的数据有些问题

老板提了另一个方法

我不是很买账。不过决定用数据来说话。

搞数据又搞了很久。首先是收集ground truth。专门写了个visualization server。竟然被老板点了小赞。出乎我意料之外。生怕他觉得我又不务正业了。

然后这个礼拜专门分析和比较各种方法。

用dremel。越搞越爽。

本来打算比较简单的一两个方法。发现程序写好后,可以一下批量比较上十种方案。

而且写代码的时候竟然找到了更好的框架,把问题一下子重构到一个标准的机器学习问题。重构之后,加一个新的方案只需要一两行代码。

不仅如此,所有方法的precision, recall最后都可以到同一个表里。结果直接复制到文档里。end to end,实在太方便了。

今天下午又发现其实最开始的输入数据都可以由dremel生成,完全没必要专门写map reduce程序。

所以以后碰到一个问题应该先考虑可不可以用dremel搞。感觉只要跟数据处理有关的事情都可以用dremel。

先用dremel做实验。测试各种点子。选中一个合适的点子,再开始弄production code。这样可以少走很多弯路。

哎,其实以前不就悟到这个道理过么?

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s