posts - 5,comments - 14,trackbacks - 0

今年过年,去一位长辈家拜年,刚好碰见他在研究股票趋势,闲聊之下,“大数据”,竟然也从他嘴里蹦出来。真是 duang的一声,把我吓了一跳。大数据,真不再是只可远观,高大上的主了。

大数据虽然不再飘在空中,但对大数据的争论却从未停过。

何为大数据?

大数据的概念,喧嚣社会之上也有好几年了。但具体什么是大数据,行业里也是各说不一。大狭义上来讲,大数据就是巨量数据,极大量的数据。但究竟是“多大”,才叫大数据呢?也是未有一个统一的说法,一般来说,10T量级的数据量,就可以称之为“大”数据了。而广义上的大数据,更多是指包括数据本身在内的,一整套数据处理分析框架。纵观众多的何为大数据,小K以为,研究机构Gartner给的定义还是比较不错的,也是百度百科上采用的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量的、高速增长率和多样化的信息资产。

这个定义还是比较好的,区分了纯数据量论,也比较符合实际项目落地的情况。比如一个客户终端偏好分析,如果在现有数据、分析模型上,已经可以99%的机会准确分析出来,那再增加大量的数据去分析,这是毫无意义的,可能由于噪音数据的增加,准确率更低也是可能的,就不应该归入大数据的范畴,用大数据的方式去处理。目标数据要重质,而不是单纯的量。

大数据平台化

   大数据该怎么玩?这也是一个大家热烈讨论的领域。大数据的快速发展、落地生根,可能已经超出了它的最初的含义,拓展了内涵。在数据量不断剧增,数据资产化的趋势下,大数据平台化已经成为业内比较流行的一种建设方式。大数据平台重在数据的采集、存储、处理,重在数据能力的提供上,给应用建设提供数据支撑,而不是直接面对最终用户。如下图:

大数据平台解决了在以往技术框架内,面对大量数据时难以解决的数据采集、存储、处理问题,并根据上层应用需求,提供了数据能力服务,支撑上层应用开发,满足最终用户的各类需求。

在此,或许有朋友要纠结于:大数据平台用什么技术建设比较好呢?目前热门的hadoop技术?后起之秀spark?还是沉稳的MPP?诸如此类。有什么关系呢?技术是为业务服务的,技术也是优劣并存的,考虑的因素不一样,技术选型就不一样,没有最好的技术,只有最合适的场景。也许,没几年之后,又是一片新技术的天下。

小结

根据IDC的研究,从2005年到2012年,全球的数据量翻了27番,约达到2.5ZB,其中仅有25%的数据是有用的,仅有3%的数据贴有标签能被使用,仅有0.5%的数据被用于分析。大量的数据被闲置,被丢弃,价值被埋没。随着技术的不断发展,数据价值的不断体现,大数据将会成为推动未来企业发展的重要引擎。BAT知道,全世界也知道。大数据之路,任重而道远。

posted on 2015-03-02 10:37 kenlee14 阅读(175) 评论(0)  编辑  收藏

只有注册用户登录后才能发表评论。


网站导航: