大数据导论
上QQ阅读APP看书,第一时间看更新

1.2 什么是大数据

随着社会的发展,技术的不断进步,人们驾驭和管理业务范围逐步扩大,特别是互联网出现以后,社交网络、社交商务平台上的数据、图像、声音及视频的数据增长量远远大于传统的管理系统中运行的结构性数据的数量。由于这部分数据的涌现,管理组织中的对象从一般的数据管理发展到大数据管理。本节将介绍大数据定义和大数据特征,并且回答在数据时代如何利用大数据为组织管理提供有价值的内容和为决策提供支持等问题。

1.2.1 数据的基本知识

数据是各种符号,如字符、数字、声音、图片动画和视频多媒体等,数据也是原始事实,要保证其原始性和真实性,通过后期加工才有意义。信息是人们为了某种需求而对原始数据加工重组后形成的有意义、有用途的数据。

在信息的基础上提炼和总结成具有普遍指导意义的内容,包括共性规律、理论和模型模式方法等,称为知识。运用知识,结合经验创造性地预测未来解释现象和问题洞见未来成为智慧。从数据到智慧的步步升级也是从认识局部到认识整体,从描述过去或现在到预测未来的过程。图1-4表明了从数据到信息到知识再到智慧的阶梯式递进方式。

图1-4 从数据到智慧阶梯

数据处理技术包括数据的采集、存储、处理、分析和表现等技术,目的是把数据变成有价值的信息,乃至将数据挖掘或处理升华成知识。

数据、信息和知识三者既有区别又有联系:数据是信息的载体,是信息的原始记录,包括数字、语言、文字、声音、图形和图像等多种形态;信息是经过加工后的对某现象具有一定解释力的数据,或者说是有价值的数据;知识是信息的进一步提升,是更加系统化、理论化的信息。运用知识并结合经验创造性地预测、解释和发现是智慧。

事实上,数据处理技术与信息处理技术并无本质区别,都是解决如何将数据处理加工成信息乃至知识的技术。如果非要加以区分的话,可以认为,联机在线事务处理(On-Line Transaction Processing,OLTP)是侧重于数据处理的技术,而联机在线分析处理(On-Line Analytical Processing,OLAP)是侧重于信息和知识处理的技术,而这种区分只能说是“侧重”而已,实际上并无绝对界限。数据处理是基础(比如,将原始的有“噪音”的数据经过“清洗”等处理,变成可以进一步加工处理的数据),信息处理是在此基础上的更高一层的应用,二者紧密相连,不能完全隔离开来。

1.2.2 大数据定义

一般的数据定义是基于信息技术发展早期的信息系统里数据库中的数据,或管理本地的数据或驾驭远程的数据库。到了近几年,管理模式不断创新,社会网络的出现、跨界数据管理,以及物联网增长,都催生了大数据的出现。一般数据和大数据有本质的不一样,在谈什么是大数据之前,先认识大数据是如何产生的。

1.大数据来源

1)物联网、云计算、移动互联网、车联网、手机、平板电脑、PC及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

2)有些例子包括网络日志、RFID、传感器网络、社会网络、社会数据(由于数据革命的社会)、互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;大规模的电子商务。

图1-5展示了大数据在物联网智能设备上产生的数据存储在云端形成的大数据情况。

图1-5 物联网、云计算、互联网和移动互联网的关系

大数据是如此庞大而复杂,需要用专门设计的硬件和软件工具进行处理。该数据集通常是PB或EB的大小。这些数据集收集自各种各样的来源,如传感器、气候信息及公开的信息(如杂志、报纸和文章)。大数据产生的其他例子包括购买交易记录、网络日志、病历、军事监控、视频和图像档案,以及大型电子商务。

2.大数据定义

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中,大数据是指不用随机分析法(抽样调查)这种捷径,而是对所有数据进行分析处理。广义上的数据和大数据里包括信息。

大数据(Big Data),或称巨量资料,是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。或定义为,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

Lisa Arthur 在《大数据营销》一书中将大数据定义成纷繁杂乱的、互动的应用程序、信息和流程。她把大数据比喻为数据“毛球”。如图1-6所示。在一些企业中,混乱的数据中包含的信息可能分布于市场营销部门、财务部门、销售部门和客户服务部门。而在另外一些公司,这些混乱的数据可能往往来自市场营销服务提供商、独立的电子商务网站、未归档的呼叫中心的对话录音,以及公司或合作伙伴的部门和部分网页活动数据日志。

图1-6 数据“毛球”

麦肯锡全球研究所给出的大数据定义是:一种规模大到在获取、存储、管理和分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

IBM公司赋予大数据“领悟数据,提升见识,洞察秋毫,驱动优化”4个内涵,侧重于大数据技术的应用,强调大数据间相关性的发现,其核心能力是“大数据中的价值发现和应用”。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。随着互联网及其应用的发展,不断形成的大数据是一类由互联网衍生而来的重要的人造资源,从管理角度,大数据是一类反映物质世界和精神世界运动状态和状态变化的资源,它具有决策有用性、功能多样性、应用协同性、可重复开采和安全风险性。

大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的计算机分配工作。每天都产生数以亿计的数据,云计算和云存储的应用有效地将这种隐态资源转化为可用资源,当前这种资源无疑成为国家、组织和个人最重要的财富。

1.2.3 大数据的特征

大数据通常用来形容某个组织或企业创造的大量非结构化和半结构化数据,面对复杂的大数据,可以抓住其中的主要特征来理解。

1.大数据的特征

大数据有4个层面特点,也可将其归纳为4个V——Volume、Variety、Value、Velocity。IBM则提出大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)和Veracity(真实性)。表1-4汇总了大数据特征。

1)数据体量巨大(大量)(Volume)。从TB级别跃升到PB级别,数据体量巨大。从TB级别跃升到EB级别(1TB=1024GB;1PB=1024TB;1EB=1024PB)。

2)数据类型繁多(多样)(Variety)。例如,网络日志、视频、图片和地理位置信息等。

3)价值密度低(value)。价值密度低,商业价值高。以视频为例,在连续不间断的监控过程中,可能有用的数据仅仅有1~2秒。

4)处理速度快(Velocity)。由通常的离线处理变为在线处理,由在线事务处理(OLTP)变为在线分析处理(OLAP)。数据是永远在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特征。现在所谈到的大数据不仅仅是大,更重要的是数据变得实时在线了,这是互联网高速发展背景下的特点。

表1-4 大数据特征

2.大数据的3个维度

下面再来系统地认识大数据的维度,可以从理论、技术和实践3个维度来展开。图1-7表明了大数据的3个维度。

(1)理论维度

理论是认知的必经途径,也是被广泛认同和传播的基础内容。从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

(2)技术维度

图1-7 大数据的3个维度

技术是大数据价值体现的手段和前进的基石。分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

(3)实践维度

实践是大数据的最终价值体现。从互联网的大数据、政府的大数据、企业的大数据和个人的大数据4个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

物联网、云计算、移动互联网、手机、平板电脑、PC,以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

大数据的核心在于为客户挖掘数据中蕴藏的价值,而不是软硬件的堆砌。因此,针对不同领域的大数据应用模式、商业模式研究将是大数据产业健康发展的关键。

3.大数据技术

大数据需要特殊的技术,使用特殊的数据结构来组织和访问巨大数量的数据,以便有效地处理跨多个服务器和离散数据存储的数据。适用于大数据的技术包括大规模并行处理数据库、数据挖掘、信息可视化、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。