量化并不可靠——《The Best Software Writing》读书笔记

Larry’s Rules of Software Engineering #2: Measuring Testers By Test Metrics Doesn’t

我们总试图通过一些量化指标来评测一个人的表现。比如对于测试人员,也许评价标准是他找到了多少个bug。找到的Bug越多,我们就认定这个家伙表现的很好,反之就是很差。初看起来不错,不过实际情况是这种量化机制并不有效,准确地说是有害。因为被评价者总会找到一些trick来欺骗这套评价系统,结果可以得到很高的分,可生产率实际却是降低了。比如测试人员把本来一个bug从两个不同方面说,就变成了两个。或者专门抠一些拼写错误。更坏的情况是把本来没必要声明的东西说成Bug,麻烦一批人,其实根本没有任何必要。据说Windows NT 3.1曾经有个测试人员,这个家伙是个data corruption搜寻狂,不知疲倦的解决data corruption的问题。不过其实他没找到多少这样的漏洞。但是几乎每个他所找到的,都会对最终产品成功起决定性影响。要是这个家伙按照刚才那套指标,估计就是不合格了。而实际上这个家伙比其他任何测试者都重要。也许有人说,也许这套评价系统不好,那好,我们换一套,或者改一改。没用的,且不说很难找到一个“科学”的量化方法,上面已经说过,大家会找到这套方法的漏洞,用一些trick骗取分数。

这让我想起上次看到的一篇文章:

http://book.sina.com.cn/nzt/his/huajianyihujiu/53.shtml

现在国内大学比以前要“科学”的多,paper数是主要量化指标之一。老师评职称要看paper,什么影响因子也要看paper,更要命的是学生毕业也要看paper。这就出现了几个现象。有些老师成了paper狂,还把自己的paper贴在墙上,生怕人家不知道。不知道教授见教授的时候是不是就像吴刚以前说的那样,话题总是你有几篇paper,几篇牛paper。陈小平6年前就跟我们说过,国内的杂志,里面90%都是水。曾经有新闻,说某某教授一年出了几百篇paper,影响因子多少多少,也因此竟享受院士级待遇,最后有心人一查,论文全是同一个模版,改了几个数据就重新发了。一方面有人出paper如滔滔江水,另一方面学生为了混毕业高价买捉刀者。一堆堆的硕士博士为了混毕业煞费苦心。这就是按paper量化评估的结果,论文质量变水,学术腐败,学生费尽九牛二虎之力不过为了一两篇对任何人都没有任何意义的paper。

这只是一个方面,按paper量化。其他还有各种各样量化标准。不过结果都好不到哪儿去,而且总会导致资源浪费,搞一些完全为了指标而没有任何益处的东西。

人都免不了逐名与逐利。而现世名与利往往与某些指标相挂钩,并谓之“科学”。于是弄虚作假泛滥成灾。比如假文凭,灌水paper。大跃进、浮夸也成灾。比如学校兼并。政绩工程,形象工程。总之,这个社会显得很虚浮。大家也更加看重所谓的名头。进知名外企、出国、高工资,是这里面的名头之一。