Python数据分析案例实战(慕课版)
上QQ阅读APP看书,第一时间看更新

1.3 数据分析方法

数据分析是从数据中提取有价值的信息的过程,过程中需要对数据进行各种处理和归类,只有掌握了正确的数据分析方法,才能起到事半功倍的效果。

数据分析方法一般分为:描述性数据分析、探索性数据分析和验证性数据分析,如图1-1所示。其中,描述性数据分析是最基础、最初级的,例如,本月收入增加了多少、客户增加了多少、哪个单品销量好都属于描述性数据分析。而探索性数据分析侧重于发现数据的规律和特征,例如有一份数据,你对它完全陌生,又不了解业务情况,会不会感觉无从下手?如果你什么都不管,直接把数据塞进各种模型,却发现效果并不好,这时就需要先进行数据探索,找到数据的规律和特征,知道数据里有什么没有什么。验证性数据分析就是已经确定使用哪种假设模型,通过验证性数据分析来对你的假设模型进行验证。后两者是比较高级的数据分析。

数据分析方法

图1-1 数据分析方法的类别

数据分析方法从技术层面又可分为三种:统计分析类,以基础的统计分析为主,包括对比分析法、同比分析法、环比分析法、定比分析法、差异分析法、结构分析法、因素分析法、80/20法则等;高级分析类,以建模理论为主,包括回归分析法、聚类分析法、相关分析法、矩阵分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列分析法等;数据挖掘类,以机器学习、数据仓库等复合技术为主。下面将重点介绍几个常用的数据分析方法。

1.3.1 对比分析法

对比分析法是对客观事物进行比较,以达到认识事物的本质和规律的目的并做出正确的评价。对比分析法通常是把两个相互联系的指标数据进行比较,从数量上展示和说明研究对象规模的大小、水平的高低、速度的快慢及各种关系是否协调。

对比分析法一般来说有以下几种方法:纵向对比、横向对比、标准对比、实际与计划对比。例如,淘宝2018年上半年每月销售情况对比分析,如图1-2所示。

图1-2 每月销售情况对比分析图

1.3.2 同比分析法

同比分析法是按照时间即年度、季度、月份、日期等进行扩展,用本期实际发生数与同口径历史数字相比,产生动态的相对指标,用以揭示发展水平以及增长速度。

同比分析法主要是为了消除季节变动的影响,用以说明本期水平与往年同期水平对比而达到的相对值。例如,本期1月比去年1月、本期2月比去年2月等。在实际工作中,经常使用这个指标,如某年、某季、某月与上年同期(年、同季度或同月)相比的发展速度,也就是同比增长速度,公式如下:

同比增长速度=(本期-往年同期)/往年同期×100%

例如,2017年和2018年两年1月至6月销量情况对比,如图1-3所示,同比增长速度如图1-4所示。

图1-3 本期、同期销量情况对比

图1-4 同比增长速度图

1.3.3 环比分析法

环比分析是报告期水平与前一时期水平之比,表明现象逐期的变化趋势。如果计算一年内各月与前一个月对比,即1月比去年12月,2月比1月,3月比2月……,6月比5月,说明逐月的变化程度。本期数据与上期数据比较,形成时间序列图。环比增加速度公式如下:

环比增长速度=(本期-上期)/上期×100%

例如,2018年1月至6月本月(本期)与上个月(上期)销量情况环比分析如图1-5所示,按月环比增长速度如图1-6所示。

图1-5 本期与上期环比分析图

图1-6 环比增长速度图

1.3.4 80/20法则

80/20法则,又称二八法则、帕累托法则、帕累托定律、最省力法则或不平衡原则。此法则是由意大利经济学家帕累托提出的。80/20法则认为:原因和结果、投入和产出、努力和报酬之间本来存在着无法解释的不平衡。

例如,80%的收入仅来自于20%最畅销的产品。下面是全彩系列图书2018年上半年收入占80%的产品,效果如图1-7所示。通过该分析结果可以考虑对这部分产品加大投入、重点宣传。

图1-7 全彩系列图书2018年上半年收入占80%的产品

80/20法则仅仅是一个比喻和实用基准。真正的比例不一定正好是80%∶20%。80/20法则表明在多数情况下该关系很可能是不平衡的,并且接近于80/20。

1.3.5 回归分析法

回归分析法多用于统计分析和预测。它研究变量之间的相关关系以及相互影响程度,通过建立自变量和因变量的方程,研究某个因素受其他因素影响的程度或用来预测。回归分析法有线性和非线性回归、一元和多元回归之分。常用的回归有一元线性和多元线性回归方程。

一元线性回归方程是以X为自变量,Y为因变量的一元线性方程。例如以广告费为因变量,以销售收入为自变量,分析广告费对销售收入的影响程度,以及对未来销售收入的预测。

多元线性回归方程是当自变量有两个或多个时,研究因变量Y和多个自变量1X,2X,…,nX之间的关系。例如,考虑多个因素影响销售收入时,销售收入为因变量,满减、打折、季节变化等指标为自变量,分析这些因素对销售收入的影响程度,以及对未来销售收入的预测。

建立一个回归分析一般要经历这样一个过程:先收集数据,再用散点图确认关系,然后利用最小二乘法或其他方法建立回归方程,检验统计参数是否合适,进行方差分析或残差分析,优化回归方程。

例如,通过预支广告费(60000元)预测销售收入,首先根据以往广告费(X实际)和销售收入(Y实际)形成散点图,然后使用最小二乘法建立一元线性回归方程拟合出一条回归线来预测销售收入,如图1-8所示。

图1-8 一元线性回归分析图

1.3.6 聚类分析法

聚类分析法多用于人群分类和客户分类。所谓聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程(即将相似数据并成一组),聚类就是一种发现这种内在结构的技术。聚类的意思就是把一个大数据集按照某种距离计算方式,分成若干个分类。其中每个分类内的差异性要比类与类之间的差异性小很多。

聚类与分类分析不同,它所划分的类是未知的。因此,聚类分析也称为无指导或无监督的学习。它是一门静态数据分析技术,在许多领域受到广泛应用,包括机器学习、数据挖掘、模式识别、图像分析以及生物信息。

例如,客户价值分析中对客户进行分类(根据业务需要分为4类),其中的某一类客户如图1-9所示。

1.3.7 时间序列分析法

时间序列分析法多用于统计和预测。它是按照时间的顺序把随机事件变化发展的过程记录下来构成一个时间序列,并对这个时间序列进行观察、研究,找出它变化发展的规律,预示它将来的走势。

时间序列分析法可分为描述性时序分析法和统计时序分析法。描述性时序分析法是通过直观的数据比较或绘图观测,寻找序列中蕴含的发展规律。例如,某淘宝店铺近两年增长趋势和季节波动趋势,如图1-10和图1-11所示。从图中可以看出近两年该淘宝店铺的收入持续稳定增长,而季节性波动比较明显。

图1-9 聚类分析

图1-10 增长趋势

图1-11 季节波动趋势

统计时序分析法的原理是:根据系统观察得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法,一般使用自回归移动平均模型ARMA(pq),它是时间序列中最为重要的模型之一,主要由两部分组成:AR代表p阶自回归过程,MA代表q阶移动平均过程。

统计序列分析法常用于国民经济宏观控制、市场潜力预测、气象预测、农作物害虫灾害预报等方面。