Blog刚开张说些什么好呢?就谈一谈学术界流行的数据挖掘吧。
数据挖掘本来就是数据分析,用数学和统计的方法分析已有的数据。可是这个概念在商业上和学术上却产生的天地一般的差别,在商业上,数据挖掘指的实际就是数据库的整合和查询,最多加上一些非常简单的算法,比如关联,就成了所谓的数据挖掘系统,再者就干脆理解为OLAP和报表制作;而学术上呢?要是你翻开Datamining的教科书或者论文集,你要担心了,除非你是个数学系的毕业生,否则你绝对不会理解里面概念、公式和结论。为什么有这么大的差别呢?从软件工程的角度来看,原来商人和学者的需求完全不同,商人不需要高深的理论,什么样的工具对生意有用,对管理有用,就用什么工具,最好直观可信易懂;但学者正好相反,要发表论文没有创新不行,因此越来越多艰深的理论被写入论文。这样造就了两个截然不同的数据挖掘领域。
其实要说都不一样也不确切,许多优秀可行的分析方法在时间的考验中沉淀下来,逐步进入了商业领域,同时商业管理系统包括ERP,CRM也越来越注重新方法的应用,看来商业和学术也不是两条平行线。
我们java人能做什么呢?看到许多领域:B/S、GIS、ERP、CAD乃至数据库都有相应的开源软件群了,而数据分析和挖掘却一直很少人问津,并不是它没有用,而是DM要求的门槛较高,更需要耐心和恒心,因此希望越来越多的人关注开源数据分析/挖掘的实现。