第1节 大数据,娶来的洋媳妇
随着互联网时代的到来,大数据(Big data)越来越多地受到了各方的关注。现如今,大数据运用在各个领域“肆意”扩展,很多行业也正在被逐步“数据化”,可以说,一个大数据时代正在到来。
2015年2月22日,第87届奥斯卡颁奖典礼落下帷幕,如果你还是通过电视机或电脑等方式才知道的评奖结果,那就太落伍了!要知道,在各项重头奖项公布之前其结果早就是众人皆知了。那么,是不是圈内人士提前透漏了呢?是捧起小金人奖杯的《鸟人》导演冈萨雷斯·伊尼亚里图,还是“影帝”埃迪·雷德梅,“影后”朱里安·摩尔?其实不是,据说,奥斯卡金像奖评选流程和评选规则极为严格,由6600名电影艺术家和会员组成一个评委团,每个参与者采用的都是匿名投票的方式进行选举,可见谁也不可能提前知道评奖结果。
原来,在这项结果的预测上,正是无处不在的大数据技术发挥了作用。在奥斯卡颁奖的几天前,微软研究院经济学家戴维·罗思柴尔德就和他的团队根据以往的各种数据建立一个数据模型,对投票结果进行了精准的推测和预算,从而预测出了本届奥斯卡可能花落谁家,最佳电影、最佳导演、最佳男女主角以及最佳男女配角等重头获奖者都准确预测得出。同时,他率先在“聪明网站”上公布其结果,当颁奖典礼落下帷幕时,其预测的结果与实际结果非常吻合。
这就是大数据的作用,预测奥斯卡金像奖得主向来被认为是极高难度的预测,最终却被大数据破解了,这令很多人不解,尤其是业内不少权威人士,在他们看来这次预测极具偶然性。长期以来很多人对大数据的预测性持怀疑态度,认为依靠数据预测结果向来不靠谱,甚至认为所谓的数据模型根本不存在。
事实并不这样,大数据是具有可预测性的,在企业生产、人们的日常生活中也多有运用,正在改变着全世界,如图2-1所示。
比如,零售业巨头沃尔玛利用数据分析开展业务。沃尔玛在自己的网站Walmart.com上设计了一个搜索引擎“Polaris”,该功能利用语义数据进行文本分析、机器学习和同义词挖掘等,大大提高了在线购物的完成率。据说,从原来的10%提升了到15%,5个百分点对沃尔玛来说就就意味着数十亿美元的收入。
图2-1 大数据宣传画
美国著名的Morton牛排店也通过数据分析来提高服务质量。该店位于芝加哥,是分布全美很多地方的连锁店。他们的服务质量非常到位,当远在纽约的顾客需要订一份牛排时,该店可在一天工作之内抵达该处。该店在推特上开通了“上门送餐”服务,当客户通过推特发出需求后,该店首先会对推特上的数据进行分析,识别该顾客是本店的陌生客人,还是常客(本业务只针对老顾客)。当确定是来顾客后,会根据顾客情况,以及订单推测出其所在地方,或所在的航班,然后马上派当地的服务人员送去订餐。
不仅如此,日常生活中的很多行为也可以依靠大数据进行分析。比如,判断商品的伪劣,顾客的喜好、经济状况、婚姻状况等等,在数据分析基础上便可实现理性的认识。
贵阳某超市,利用一款“食安测”软件为消费者提供购物条件,食安测就是一个建立在大量数据分析基础上的APP。消费者只要在手机,打开软件输入所购买的物品,点击“查询”,手机上立刻显示出检测结果,还有营养成分等信息,生产日期、生产地、有效期以及相关的商品信息,从而为有效鉴别商品提供了依据。
通过这么多例子,大家对大数据以及大数据运用了有了初步的认识,那么何谓大数据呢?又是凭借什么被广泛运用的呢?
什么是大数据
我们先来了解以下什么是大数据?20世纪90年代末,美国航空航天局研究人员创造了大数据一词,自诞生以来,它一直是个模糊的概念,直到最近几年,才被大家熟知。维克托·迈尔·舍恩伯格是大数据的提出者和实践者,他被誉为“大数据商业应用第一人”,2010年,在著名杂志《经济学人》上发表了长达14页之多的大数据应用的前瞻性研究报告。2012年所著的《大数据时代》是他先后在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个高等院校任教的经验总结,更是成为了国外很多研究者研究大数据的蓝本。
也正是这一年,大数据来到中国,对于国内的大多数人来讲,大数据就像漂洋过海远“嫁”中国的洋媳妇,想要扎下根来还需要很长时间。然而,对于我们每个人来讲,不仅要欣赏这位外来“洋媳妇”的花容月貌,还要看清其秀外慧中的内在。
大数据被运用的原因
为了更好地理解“大数据”,经过总结需要抓住4大特点,Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值),又称4V特点,如图2-2所示,这也是大数据被广泛运用的根本原因。
图2-2 大数据分析的4V特点
(1)信息量大
首先体现在“大”上,即Volume,数据的大容量特性,大数据的容量特别大。尽管目前业绩对达到怎样的数量级才算是大数据并无定论,但在很多行业的应用场景里,数据集本身的大小是不容忽视的,数据越多,涉及面越广,分析结果越准确。
(2)种类多
其次是“多”,即Variety,主要是指数据的种类繁多。大数据的来源非常多,而且正在日渐多样化,已突破以前所限定的结构化范畴,半结构化和非结构化数据正在日益多起来,比如,通过各种有线和无线网络,人和人、人和各种机器、机器和机器之间产生无处不在的连接,这些连接不可避免地带来更多的数据交换。
(3)速度快
“快”是大数据的又一大特性,即Velocity,大数据量虽然很庞大,但能得到最快的处理。比如,以我们普通人开车外出吃饭为例,当确定外出时,肯定会先用移动终端中的地图查询餐厅的位置,预计行车路线,了解停车场信息,甚至还要关注其他用户对餐厅的评论等。你只要将这些信息输入相关系统,系统会很快给出你答案,这就是大数据的及时性体现,很大程度上方便了人们的生活。
(4)追求价值性
大数据的最后一个特点是价值性——Value,与前面3个“V”相比更重要。它是大数据的最终意义——获得洞察力和价值。大数据的崛起正是在人工智能、机器学习和数据挖掘等技术的迅速发展驱动下,而呈现出的一个“将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动”的过程。所以真正好的大数据系统不是越多越好,而最终变得富有价值,也就是对最后的决策起到智力支持的作用。
正因为大数据具有上述4个特点,才能够被广泛运用于多个领域,政治、经济、文化等各方面,帮助全社会进入了“数字”时代,信息时代。可见,谁掌握了海量的数据,谁就拥有了竞争的主动权,作为身处信息时代的个人,无论是生活、学习,还是理财都必须学会正确运用大数据。