作为一个资深数据簇拥者,周春亮显然走在了对于数据深度挖掘及应用的前列,对于大数据的理解,他给出了和一般常识不一样的理解。
可能很多人都理解,大数据一定是大,周春亮说,这其实是一个误区,大数据强调的是“全样本”而非“抽样样本”。抽样的统计学现在统治着科学界和各行各业的应用领域,但抽样的弊端显而易见,对样本的筛选条件极为苛刻,如果样本筛选的条件趋于相近时,得到的结论是有偏见的,但为什么抽样一直是大家现在还在追求的方法呢?是因为数据的采集成本太高。而对于样本的分析,只有全样本才能代表着一种真实的状态。随着计算机技术及各种智能采集方案逐步完善的现在,全样本的呈现出现了可能。
如果尝试去解决混沌问题,显然方向就出现了错误,这个世界太多元化了,各种因素都会对一个事情的本质有着各种各样的影响,如果将“不和谐的”数据去除掉,看似完美却忽略了更为真实的一面。混沌的问题不应该去回避,而应该去拥抱混沌,在混沌中找到数据的相关价值才是比较有意义的,这就如同变废为宝一样。举个例子,2004年,沃尔玛对历史交易记录这个庞大的数据库进行了观察,这个数据库记录的不仅包括每一个顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时间,甚至购买当日的天气。这样的数据显然在大家眼睛里看出是一锅粥,没有具体的逻辑关系,但沃尔玛公司注意到,每当在季节性飓风来临之前,不仅手电筒销售量增加了,而且POPTarts蛋挞(美式含糖早餐零食)的销量也增加了。因此,当季节性风暴来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便行色匆匆的顾客从而增加销量。通过使多元异构数据相互融合,分析相关性,可以推动决策的精准化。
大数据不去追求因果,只追求相关,大数据不会告诉你“为什么”,只会告诉你“是什么”,这对现有的科学认知是个巨大的冲击,所有人都在追求本质,追求的过程就是找因果的过程,但因果关系是古代缺乏全样本采集的资源而进行抽样分析的产物。显然依据抽样理论为基础的逻辑关系是不全面的。
从刚才沃尔玛的例子可以看到,大数据的价值在于数据的二次元关系上,通过分析大数据的相关关系从而可以开发出很多有价值的应用。比如谷歌公司将所有的浏览记录都记录了下来,有几十亿条数据,这些浏览数据通过相关性分析,竟然成功捕捉到流感的区域分布,比官方公布的消息整整早了一周。这仅仅是个例子,通过大数据看它的相关性,能挖掘到数据以外新的商业机会。再举个有趣的例子,如果一个人站在几十米高的画像跟前去看化作,也许只能看到一个鼻子的美,但却看不到全脸的轮廓,但只看鼻子是一个什么样的体验呢?
大数据的价值重在大数据思维和大数据技术,这只是初级阶段,技术的升级是很快的,将来会出现很多优秀的工具进行大数据的相关性分析,当前的相关性分析主要还是在围绕直线趋势,但将来一定会出现多元相关性分析的工具。当思维和工具逐渐趋于应用普及化以后,重点还是会回到大数据本身。
大数据产业的受益者一定是大数据的拥有者,大数据拥有者可以将数据有偿开源给多家大数据应用公司,大数据应用公司的成果大部分都会被大数据拥有者过度侵蚀,这就需要法律的完善,保障大数据拥有者和使用者的权益。
有一个科学家做过一个有趣的研究,根据人的的位置的压力判断人的坐姿,从坐姿和人的健康的某些指标做关联,收集了一千万数据以后,完美的通过坐姿解读了人的健康状态,实际上坐姿仅仅是个现象,而将现象转化为数据的过程就是数据化的过程。显然这个例子也是强调大数据的相关性的商业价值,随着传感器技术的发展,各种和相关的现象都能转化成数据,通过数据分析都能做出各种预测模型。
预测才是大数据真正的意义所在,而预测同时也蕴藏着巨大的需求,所以数据化必将是一个大势所趋的事情,一切现象都可以数据化,通过数据化去研判现象的趋势。如何能适应这个趋势呢?首先从思维上要拥抱混沌,去找到数据带来的二次元应用而获得的价值感。
江南体育官网下载