第3章 数据的图表展示
3.1 知识要点总结
一、数据的预处理
1.数据审核
即检查数据中是否有错误。
(1)原始数据主要从完整性和准确性两个方面去审核
①完整性审核:主要是检查应调查的单位或个体是否有遗漏,所有的调查项目是否填写齐全等;
②准确性审核:主要是检查数据是否有错误,是否存在异常值等。
对于异常值要仔细进行鉴别:如果异常值属于记录时的错误,在分析之前应予以纠正;如果异常值是一个正确的值,则应予以保留。
(2)二手数据着重审核数据的适用性和时效性
①首先应弄清楚数据的来源、数据的口径以及有关的背景材料,以便确定这些数据是否符合分析研究的需要,不能盲目生搬硬套;
②对于一些时效性较强的问题,如果所取得的数据过于滞后,就可能失去研究的意义。
2.数据筛选
即根据需要找出符合特定条件的某类数据。可借助计算机自动完成。
3.数据排序
数据排序是按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。除此之外,排序还有助于对数据检查纠错,以及为重新归类或分组等提供方便。
排序后的数据称为顺序统计量。
二、品质数据的整理与展示
1.分类数据的整理与图示
(1)频数与频数分布
①频数与频数分布
频数是落在某一特定类别或组中的数据个数。把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来,称为频数分布。
②列联表和交叉表
由两个或两个以上变量交叉分类的频数分布表也称为列联表。
二维的列联表(两个变量交叉分类)又称为交叉表。
③比例(构成比)
比例是一个样本(或总体)中各个部分的数据与全部数据之比,通常用于反映样本(或总体)的构成或结构。
④百分比
将比例乘以100得到的结果称为百分比,用%表示。
⑤比率
比率是样本(或总体)中各不同类别数据之间的比值。其比值可能大于1。
(2)分类数据的图示
①条形图
指用宽度相同的条形的高度或长短来表示数据多少的图形。可以横置或纵置,纵置时也称为柱形图。条形图有简单条形图、复式条形图等形式。
②帕累托图
指按各类别数据出现的频数多少排序后绘制的条形图。通过对条形的排序,容易看出哪类数据出现得多,哪类数据出现得少。
③饼图
指用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例。
④环形图
把饼图叠在一起,挖去中间的部分就是环形图。
环形图与饼图类似,但又有区别。环形图中间有一个“空洞”,每个样本用一个环来表示,样本中的每一部分数据用环中的一段表示。因此环形图可显示多个样本各部分所占的相应比例,从而有利于构成的比较研究。
2.顺序数据的整理与图示
分类数据的频数分布表和图示方法,如频数、比例、百分比、比率、条形图和饼图等,也都适用于对顺序数据的整理与显示。但一些适用于顺序数据的整理和显示方法,并不适用于分类数据。对于顺序数据,还可以计算累积频数和累积频率(百分比)。
(1)累积频数和累积频率
①累积频数:将各有序类别或组的频数逐级累加起来得到的频数。其累积方法有两种:
a.向上累积:从类别顺序的开始一方向类别顺序的最后一方累加频数(数值型分组数据则是从变量值小的一方向变量值大的一方累加频数);
b.向下累积:从类别顺序的最后一方向类别顺序的开始一方累加频数(数值型分组数据则是从变量值大的一方向变量值小的一方累加频数)。
②累积频率或累积百分比:将各有序类别或组的百分比逐级累加起来,它也有向上累积和向下累积两种方法。
(2)顺序数据的图示
根据累积频数或累积频率,可以绘制累积频数分布或频率图。
三、数值型数据的整理与展示
1.数据分组
(1)数据分组的概念和目的
数据分组是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据称为分组数据。
数据分组的主要目的是观察数据的分布特征。数据经分组后再计算出各组中数据出现的频数,就形成了一张频数分布表。
(2)数据分组的方法
①单变量值分组:把每一个变量值作为一组,这种分组通常只适合离散变量,且在变量值较少的情况下使用;
②组距分组:将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。在组距分组中,一个组的最小值称为下限;一个组的最大值称为上限。
在连续变量或变量值较多的情况下,通常采用组距分组。
(3)分组和编制频数分布表的具体步骤
①确定组数
一般情况下,一组数据所分的组数不应少于5组且不多于15组。实际应用时,可根据数据的多少和特点及分析的要求来确定组数。
②确定各组的组距
组距是一个组的上限与下限的差。组距可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)÷组数。
注意:为便于计算,组距宜取5或10的倍数,而且第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值。
③根据分组整理成频数分布表
(4)组距分组的注意事项
①组距分组需要遵循“不重不漏”的原则
“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;“不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。
为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内。
a.对于离散变量,可以采用相邻两组组限间断的办法解决“不重”的问题;
b.对于连续变量,可以采取相邻两组组限重叠的方法,根据“上组限不在内”的规定解决“不重”的问题,也可以对一个组的上限值采用小数点的形式,小数点的位数根据所要求的精度具体确定。
②组距分组要避免出现空白组(即没有变量值的组)或个别极端值被漏掉
在组距分组中,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组(即没有变量值的组)或个别极端值被漏掉,第一组和最后一组可以采取“××以下”及“××以上”这样的开口组。开口组通常以相邻组的组距作为其组距。
(5)等距分组、不等距分组
在组距分组时,如果各组的组距相等,则称为等距分组;如果各组的组距不相等,则称为不等距分组。
(6)组中值
组中值是每一组中下限值与上限值中间的值,即
在组距分组时,通常用组中值作为该组数据的一个代表值。使用组中值代表一组数据时有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。
2.数值型数据的图示
条形图、饼图、环形图及累积分布图等都适用于显示数值型数据。此外,对数值型数据还有一些图示方法,这些方法并不适用于分类数据和顺序数据。
(1)分组数据:直方图
①直方图:用于展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的。
绘制该图时,在平面直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,这样,各组与相应的频数就形成了一个矩形,即直方图。
②直方图与条形图的区别
a.条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义;
b.由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列;
c.条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。
(2)未分组数据:茎叶图和箱线图
①茎叶图
茎叶图是反映原始数据分布的图形。它由茎和叶两部分构成,其图形是由数字组成的。
通过茎叶图,可以看出数据的分布形状及数据的离散状况,比如,分布是否对称,数据是否集中,是否有离群点等。
绘制茎叶图的关键是设计好树茎。制作茎叶图时,首先把一个数字分成两部分,通常是以该组数据的高位数值作为树茎,而且叶上只保留该数值的最后一个数字。
茎叶图类似于横置的直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息;而直方图虽然能很好地显示数据的分布,但不能保留原始的数值。在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。
②箱线图
a.箱线图
由一组数据的最大值、最小值、中位数、两个四分位数这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。
b.箱线图的绘制方法
先找出一组数据的最大值、最小值、中位数和两个四分位数;然后,连接两个四分位数画出箱子;再将最大值和最小值与箱子相连接,中位数在箱子中间。
(3)时间序列数据:线图
如果数值型数据是在不同时间上取得的,即时间序列数据,则可以绘制线图。线图主要用于反映现象随时间变化的特征。
注意:绘制线图时,时间一般绘在横轴,观测值绘在纵轴。一般应绘成横轴略大于纵轴的长方形,其长宽比例大致为10:7。图形过扁或过于瘦高,不仅不美观,而且会给人造成视觉上的错觉,不便于对数据变化的理解。一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大,可以采取折断的符号将纵轴折断。
(4)多变量数据的图示
①散点图
散点图是用二维坐标展示两个变量之间关系的一种图形。它是用坐标横轴代表变量,纵轴代表变量,每组数据(,)在坐标系中用一个点表示,组数据在坐标系中形成的个点称为散点,由坐标及其散点形成的二维数据图称为散点图。
②气泡图
可用于展示三个变量之间的关系。绘制时将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用气泡的大小来表示。
③雷达图
是显示多个变量的常用图示方法,也称为蜘蛛图。雷达图在显示或对比各变量的数值总和时十分有用,假定各变量的取值具有相同的正负号,则总的绝对值与图形所围成的区域成正比;此外,它也可以研究多个样本之间的相似程度。
四、合理使用图表
1.鉴别图形优劣的准则
(1)一张好图应具有的基本特征
①显示数据;
②让读者把注意力集中在图形的内容上,而不是制作图形的程序上;
③避免歪曲;
④强调数据之间的比较;
⑤服务于一个明确的目的;
⑥有对图形的统计描述和文字说明。
(2)五种鉴别图形优劣的准则
①精心设计,有助于洞察问题的实质;
②使复杂的观点得到简明、确切、高效的阐述;
③能在最短的时间内以最少的笔墨给读者提供最大量的信息;
④应当是多维的;
⑤应当表述数据的真实情况。
2.统计表的设计
(1)统计表的构成
①表头:应放在表的上方,它说明的是统计表的主要内容。
②行标题和列标题:通常安排在统计表的第一列和第一行,它表示的主要是所研究问题的类别名称和变量名称,如果是时间序列数据,行标题和列标题也可以是时间,当数据较多时,通常将时间放在行标题的位置。
③数字资料:行标题和列标题的其余部分是具体的数字资料。
④表外附加:必要时可以在统计表的下方加上表外附加,主要包括数据来源、变量的注释和必要的说明等内容。
(2)设计和使用统计表时的注意事项
①要合理安排统计表的结构,比如行标题、列标题、数字资料的位置应安排合理。应使统计表的横竖长度比例适当,避免出现过高或过宽的表格形式。
②表头一般应包括表号、总标题和表中数据的单位等内容。
总标题应简明确切地概括出统计表的内容,一般需要表明统计数据的时间(When)、地点(Where)以及何种数据(What),即标题内容应满足3W要求。
如果表中的全部数据都是同一计量单位,可在表的右上角标明;若各变量的计量单位不同,则应放在每个变量后或单列出一列标明。
③表中的上下两条横线一般用粗线,中间的其他线要用细线,这样使人看起来清楚、醒目。通常情况下,统计表的左右两边不封口;列标题之间在必要时可用竖线分开,而行标题之间通常不必用横线隔开。总之,表中尽量少用横竖线。
表中的数据一般是右对齐,有小数点时应以小数点对齐,而且,小数点的位数应统一;对于没有数字的表格单元,一般用“—”表示;一张填好的统计表不应出现空白单元格。
④在使用统计表时,必要时可在表的下方加上注释,特别要注意注明数据来源,以表示对他人劳动成果的尊重,以备读者查阅使用。