分析测试统计方法和质量控制
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1 离群值检验

2.1.1 概述

离群值的处理对我们来说并不陌生。在体育比赛或音乐大赛中,多个裁判员给选手打分,往往去掉一个最高分,去掉一个最低分,再计算平均分作为选手的得分。这种记分方法是最简单的数据处理方法,把最高分和最低分作为离群值而剔除(以防止人情分或误打分的影响)。这种确定和剔除离群值的方法在直观上有一定的公正性,但剔除的分值不一定离群,缺乏统计上的理由。

分析测试中,在对同一量进行重复测定时,常常可发现有一个或两个测量值比其他测量值明显偏高或偏低,出现“离群”的倾向。这些有“离群”倾向的值是否真正是与其他值不一致而离群,可用统计方法进行检验。按GB/T 4883—2008《数据的统计检验和解释 正态样本离群值的判断和处理》,将统计检验常用术语与定义表述于下:

离群值(outlier):样本中一个或几个观测值,它们离开其他观测值较远,暗示它们可能来自不同的总体。离群值按显著性的程度分为歧离值和统计离群值。

检出水平(delection level):为检出离群值而指定的统计检验的显著性水平。通常检出水平α值取0.05。

剔除水平(deletion level):为检出离群值是否高度离群而指定的统计检验的显著性水平。通常剔除水平的α值取0.01。

统计离群值(statistical outlier):在剔除水平下统计检验为显著的离群值。

歧离值(straggler):在检出水平下显著,但剔除水平下不显著的离群值。

在统计检验中将检出水平(α=0.05)下显著,而剔除水平(α=0.01)下不显著的离群值称为歧离值,通常称异常值。在剔除水平(α=0.01)下显著的离群值称为统计离群值,通常称高度异常值。考虑习惯上的称谓,以下将岐离值表述为异常值,统计离群值表述为高度异常值,而离群值是两类异常值的统称。

离群值产生的原因可分为两类,第一类离群值是总体本身变动性的极端表现,虽然明显偏离其他测量值,但仍然处于统计上所允许的合理误差范围之内,与其他测量值属于同一总体;第二类离群值是由于试验条件和试验方法的偶然偏离所产生的结果,或产生于测量、记录、计算中的过失误差,在统计上与其他测量值不属于同一总体。

实际测试中,测量值同时受多种因素的影响,分析人员往往不易或无法直观判断明显偏高或偏低的测量值与其他测量值是否属于同一分布,从而也无法决定其取舍。采用某一方法对一样品进行测试,在正确和正常情况下,其测量值的分布遵循一定的客观规律。统计检验就是借助于数理统计方法,根据测量值分布的规律来客观评价和判断被检测量值是否“异常”或“高度异常”,并决定是否保留或舍去,以保证测量的可靠性。

离群值的出现有三种情况:

(1)上侧情形 根据实际情况或以往经验,离群值都为高端值;

(2)下侧情形 根据实际情况或以往经验,离群值都为低端值;

(3)双侧情形 根据实际情况或以往经验,离群值可能为高端值,也可能为低端值。

测量值由小到大排列,通常要检验是否存在显著偏低和显著偏高的测量值,即偏低和偏高的测量值都要检验,这种检验方式在统计上称为双侧检验,计算的统计量与相应显著性水平的双侧检验临界值比较。在某些情况下,只检验显著偏高或显著偏低的测量值,即只对一个方向的测量值检验,这种检验方式在统计上称为单侧检验,计算的统计量与相应显著性水平的单侧检验临界值比较。如果无法认定是否单侧情况,按双侧情况处理。

图2-1、图2-2表示了测量数据分布密度曲线对双侧检验和单侧检验的拒绝域和接受域。双侧检验的拒绝域在密度曲线的两端,单侧检验的拒绝域在密度曲线的左端或右端。对双侧检验,应采用α/2的临界值界限。

图2-1 双侧检验

图2-2 单侧检验

集合所有的分析测试,其测量值服从正态分布或近似正态分布。统计检验方法就是建立在随机样本测量值遵循正态分布和小概率原理基础上的。根据测量值正态分布特性和随机抽样理论,一组测量值中,出现大偏差测量值的概率是很小的。例如,偏差大于两倍标准差的测量值出现的概率只有5%,即平均每100次测量中才可能出现5次,而偏差大于三倍标准差的测量值出现的概率只有0.3%,平均每1000次测量中才可能出现3次。通常分析测试只进行少数几次,出现大偏差的可能性是十分小的,而现在居然出现了,根据小概率事件在一次测量中实际上不可能发生的原理,自然不能将其看成是由随机因素引起的,人们有理由认为偏差很大的测量值与其他测量值来源于不同总体,而作为离群值处理。

上述2倍标准差(2σ)和3倍标准差(3σ)在统计上通常称为允许的合理误差范围。统计中所取特定小的概率在统计检验中称为显著性水平,记为α,它表示犯“将本来不是离群值而作为离群值处理”这类错误的概率。在分析测试中,一般取显著性水平α=0.05。取显著性水平0.05判断,可以认为,判断的异常值在95%的情况下的正确的,但仍有5%的可能性是判断错误的。有时取α=0.01显著性水平,判断的高度异常值判错的可能性更小。

2.1.2 离群值检验

离群值的检验可分为两类,一类是测量结果的标准差已知;另一类是标准差未知,需用待检验数据本身来估计。

2.1.2.1 奈尔(Nair)检验

奈尔检验法使用的前提是标准差(σ)已知。将测量结果由小到大排列,x1x2、…、xn,其平均值为,当怀疑xnx1是可疑值时,分别计算统计量:

  (2-1)

将统计量R(或R'n)与相应临界值Rαn比较,Rαn是与测量次数n及显著性水平α有关的数值。奈尔检验临界值见表2-1。

当只是高端存在可疑值或只是低端存在可疑值时,采用单侧检验,确定显著性水平α=0.05,当RnR'n大于临界值R0.05,n,但小于R0.01,n时,判定xnx1为异常值;当RnR'n大于R0.01,n时,判定xnx1为高度异常值。

当双侧检验时,确定显著性水平α=0.05,但在查临界值表时,应取α=0.025的R0.025,n临界值作为判断标准。

当剔除一个离群值后,计算剔除后测量数据的平均值,再继续用奈尔检验法检验可疑值。

奈尔检验法的样本量3≤n≤100。

【例2-1】 测定冶金用石灰石中的氧化钙,根据实验室长期积累的数据,氧化钙含量在50%左右,其重复测量的标准差为0.16%。现对一石灰石样品进行分析,测得氧化钙含量为51.23%、51.46%、51.28%、51.70%、51.90%、51.25%、51.35%和51.38%,试问其最大的两个值51.90%和51.70%是否应判为离群值?

 计算得8次测量的平均值为51.444%,计算51.90%奈尔检验统计量:

查表2-1,R0.05,8=2.334,R0.01,8=2.828,R8>R0.01,8,在0.01显著性水平,51.90%是高度异常值,剔除该数据。余下7 个数据的平均值为51.379,计算51.70%奈尔检验统计量:

表2-1 奈尔检验临界值Rαn(单侧)

R0.05,7=2.267,R7<R0.05,7,在0.05显著性水平,51.70%不是异常值。

2.1.2.2 拉依达(Райта)检验

设一组数据的平均值为,待检验的测量值为xp,残差νp=xp-,如果残差νp的绝对值大于三倍标准差,即

  (2-2)

则认为xp含有粗大误差,为离群值,应从该组数据中舍去。

显然,采用拉依达检验准则使用起来方便,不需查表,在测量次数较多或要求不高时可采用。有时采用两倍标准差2s作为残差νp的判断标准,检验更为严格。

但是,拉依达检验只适用于测量次数n>10时使用,对以2s作判断标准,只适用于测量次数n>5时使用。可证明,当n≤10(或n≤5)时,不能检验出任何可疑数据,出现“判有为无”的错误。

2.1.2.3 格拉布斯(Grubbs)检验

不论方差已知还是未知,均可使用此法。

将测量值由小到大排列,x1x2、…、xn,计算其平均值和标准差s

①当xn为可疑值时,计算统计量:

  (2-3)

②当x1为可疑值时,计算统计量:

  (2-4)

如果统计量GnG1大于相应显著性水平的格拉布斯检验临界值Gαn(见表2-2),则认为被检量xnx1为离群值。Gαn是与测量次数n及显著性水平α有关的数值。

表2-2 格拉布斯检验临界值Gαn

③对双侧检验,xnx1可能为可疑值,计算GnG1,当Gn>G1,且Gn>Gα/2,n时,判定xn为离群值。或G1>Gn,且G1>Gα/2,n,判定x1为离群值。

【例2-2】 为标定某低合金钢标准物质中铝的认定值,由10个实验室参与协同试验,各实验室测量值的排序为0.646%、0.651%、0.653%、0.653%、0.656%、0.658%、0.659%、0.662%、0.663%和0.679%,检查该测量数据是否存在离群值。

 由样本测量数据得n=10,s=0.009006%,离群值可能是最高值或最低值,计算统计量得:

G10>G1,取显著性水平α=0.05和0.01,按双侧检验查表得G0.025,10=2.290,G0.005,10=2.482,G10大于G0.025,n,但小于G0.005,10,0.679%是异常值,但不是高度异常值。

仔细分析数据0.679%偏高的原因,该实验室采用铬天青S光度法测定铝量,但样品含0.10%的钛,对铝的测定有影响,该实验室操作人员显色时未采用掩蔽措施而致使结果偏高。0.679%虽不是高度异常值,但由于技术原因,在数据汇总时应予剔除,要求该实验室采取掩蔽钛的措施重新测试。

ISO 5725.2(GB/T 6379.2)在实验室间进行测量方法精密度协同试验时,给出了检验最大的两个测量值或最小的两个测量值是否为离群值的格拉布斯检验方法,其统计量的计算和临界值见第5章5.3.6.2。

2.1.2.4 狄克逊(Dixon)检验

单侧检验:将一组测量数据按由小到大的顺序排列,x1x2、…、xn,对x1xn按表2-3的计算式计算高端值统计量Dn或低端值统计量D'n,如果统计量DnD'n大于相应显著性水平临界值Dαn)(表2-3),则认为被检量xnx1为离群值。

表2-3 狄克逊检验的统计量和临界值Dαn)(单侧检验)

双侧检验:将一组测量数据按由小到大的顺序排列,x1x2、…、xn,对x1xn按表2-4的计算式计算高端值统计量Dn和低端值统计量D'n,当Dn>D'nDn>Dαn)时,则认为xn为离群值;当D'n>DnD'n>Dαn)时,则认为x1为离群值。

表2-4 狄克逊检验的统计量和临界值Dαn)(双侧检验)

【例2-3】 今用ICP-AES法测定某低合金钢中钼量,在重复性条件下进行14次独立分析,测量值按从小到大的顺序排列,分别为0.354%、0.357%、0.358%、0.359%、0.359%、0.361%、0.363%、0.363%、0.364%、0.367%、0.368%、0.369%、0.372%、0.390%,试判断最大值0.390%是否为离群值。

 测量数据的样本量n=14,计算狄克逊检验统计量:

查狄可逊单侧检验临界值表,D(0.05,14)=0.546,D(0.01,14)=0.640,D14>D(0.01,14),0.390%为高度异常值。

如采用格拉布斯法检验,计算得=0.3646%,s=0.0089%,计算格拉布斯统计量:

查格拉布斯法检验统计量G0.05,14=2.371,G0.01,14=2.659,G14>G0.01,14,0.390%为高度异常值,其结论与狄克逊检验结论是一致的。

有些文献上介绍的Q检验,实际上是简化了的狄克逊检验法,没有狄克逊法严格。

2.1.2.5 罗马诺夫斯基检验

罗马诺夫斯基检验准则的出发点是检查被检测量值是否符合不包括本身数据的一组测量值的分布,并与相应的显著性水平联系。

罗马诺夫斯基检验法亦称t检验法,将除可疑值以外的测量值当作一个总体,并假定该总体遵循正态分布。计算不包括待检验测量值xp的其余数据的平均值及标准差,将被检可疑值xp当作样本为1的特殊总体,如果xp与其余测量值同属一个总体,则它们间不应有显著性差异。计算统计量:

  (2-5)

若统计量k大于显著性水平α的临界值kαn),则认为xp的出现是一个小概率事件,有理由判定xp是离群值。临界值kαn)是与测量次数n及显著性水平有关的数值(表2-5)。

表2-5 罗马诺夫斯基检验临界值kαn

2.1.2.6 偏度-峰度检验

考虑样本各测量值,确认它们的样本来自正态总体,而极端值应较明显地偏离样本主体,可采用偏度-峰度检验法,判断测量值是否偏离正态总体。

(1)偏度检验(单侧检验) 一组测量数据按x1x2、…、xn大小顺序排列,计算偏度检验统计量:

  (2-6)

确定显著性水平α,若统计量bs大于偏度检验临界值bαn(见表2-6),则判最大值xn为离群值;若统计量-bs>bαn,则判最小值x1为离群值。

表2-6 偏度检验临界值

注:当n为中间数时,可用内插法估计临界值。

(2)峰度检验(双侧检验) 峰度检验用于两端测量值是否存在离群值。

峰度检验统计量为:

  (2-7)

确定显著性水平α,若统计量bk大于峰度检验临界值bαn(见表2-7),则判离平均值最远的测量值为离群值,否则为未发现离群值。

表2-7 峰度检验临界值

注:当n为中间数时,可用内插法估计临界值。

【例2-4】 以例2-3数据为例,用偏度检验法检查其最大值0.390%是否是离群值。

 采用偏度检验法,借助Excel表格,计算得按式(2-6)计算偏度统计量:

查偏度检验临界值b0.05,14=0.87,b0.01,14=1.29,bs>b0.01,14,由此,判定最大值0.390%是高度异常值,其结论与格拉布斯和狄克逊检验是一致的。

当一组测量值中有一个以上离群值时,可重复使用偏度-峰度检验法。在用此法进行连续剔除时,也有可能存在“判多为少”或“判有为无”的可能,但比狄克逊与格拉布斯检验法要好一些。

2.1.3 统计检验的功效

由于数理统计的特点是它的结论不是绝对肯定或绝对否定,而是给出某种假设成立与否的一定概率。又,虽然各种可疑值的检验方法的共同之处都是基于概率统计原理推导出来的,但这些检验方法的严密程度和计算的繁简程度不同,所取的置信水平不同。不同的检验方法有不同的检验功效,适用场合也不同。应当说,多数情况下各统计方法的检验是一致的,但也往往出现用不同的检验方法可能得到不同的结论,用一种方法检验认为是离群值,而另一种方法检验认为不是离群值的现象,特别是位于其临界值附近的测量值,出现这种情况的概率较大。

诸多检验方法中,格拉布斯、狄克逊、罗马诺夫斯基检验法考虑了测量数据数,将数据的分布与显著性水平联系起来,判据客观。狄克逊检验法使用极差计算,无需计算平均值和标准差,使用简便。格拉布斯检验法和罗马诺夫斯基检验法考虑了测量数据的分布,是较为严格的统计方法。罗马诺夫斯基检验法则比格拉布斯更严格,有些罗马诺夫斯基法检验出的异常值,格拉布斯检验法未必能检验出,因此有可能将一些正常的测量值当作异常值处理,存在“判少为多”或“判无为有”的可能。对一组测量值中存在一个以上离群值时,方差中包括另一个离群值,使其变大,但比值/不一定大,使一些离群值可能检查不出来,使“判多为少”或“判有为无”的可能性变大。因此,格拉布斯法检验一个以上离群值的功效较差。

偏度-峰度检验法又是正态性检验的优良检验法,不来自正态分布的样本都可能被它拒绝。它对非正态性的分布比较敏感,因此,有可能将非离群值判断为离群值,而实际上是由数据的非正态性引起的,在使用时要注意。

对各统计检验方法,GB/T 4883《数据的统计处理和解释 正态样本离群值的判断和处理》建议以下的选择原则:

当只有一个检出的离群值,在方差未知条件下,格拉布斯检验的统计量使用了全部测试数据,而狄克逊检验只用了“部分”的数据,格拉布斯检验的功效最优,而狄克逊检验稍逊一些,但相差不大。当n较小时,建议使用格拉布斯检验法;当n较大时,同时在正态概率纸上,若样本主体是基本在一条直线的近旁,建议使用偏度-峰度检验法。若样本主体不是基本在一条直线的近旁,建议使用格拉布斯检验法。

当限定检出离群值多于一个时,重复使用同一检验法可能犯“判多为少”(只检出一部分离群值)的错误,而不易犯“判少为多”(错将一部分非离群值判为离群值)的错误。各检验方法中,以使用偏度-峰度法最好,犯这两类错误的概率最小。使用狄克逊检验法效果次之,而重复使用格拉布斯检验的功效较差。当n较小时,可重复使用狄克逊检验法。

在较为精密的场合,可选择2~3种进行判断,当判断结论一致时,可放心地加以取舍;当几种方法判断有矛盾时,一般以不剔除为妥,此时可增加测量次数,提高检验可靠性。

2.1.4 检验结果的处理

在测试数据可疑值处理时,首先要确认所采集数据的可靠性,从技术上或操作上设法寻找明显偏高或偏低的原因。若发现其可疑值是由记录或传递有误造成的,则及时更正;若发现其测量与其分析方法要求的条件不一致,造成显著的系统误差,或存在粗大误差或操作失误引起的偏差,则可直接剔除其数据,不必进行统计检验。但是,有时未必能找出技术上或操作上的原因,需借助于统计检验方法检查可疑值,以判断测量值是否“离群”。

通常各检验方法的检验结果是一致的,有时也有检验结果不一致的情况。这时就应结合对数据处理的要求、显著性水平的选择及分析测试技术等因素综合考虑。对可疑值的检验和处理,并不能认为采用最严格的检验方法为最好,要根据数据分布和检验要求而具体分析。

标准物质的定值通常由多个实验室进行共同分析,采用成熟的、可靠的分析方法,以数理统计方法确定其认定值,追求认定值的正确度和测量精度。在对数据技术分析的基础上,通常采用较严的0.05显著性水平判断离群值,同时结合测试方法精密度从重复性限r和再现性限R等参数进行综合评价。

测量数据的统计检验应依据对使用测量数据的预期要求来选择合适的显著性水平。在制定测试方法精密度时,由不同的实验室进行协同试验,考虑到各实验室测试水平的差异,而且制定的精密度是在各不同的实验室间使用,应尽可能保留反映各实验室水平的测试信息。出于此原因,ISO 5725.2(GB/T 6379.2)规定保留超过0.05显著性水平的异常值,而仅剔除超过0.01显著性水平的高度异常值,对离群值的检验要求相对宽松些。

在试验研究中,对待离群值的处理更要慎重。试验研究本身就是寻找研究对象在试验条件下的变化规律,而这种变化规律可能还没有被人们认识(例如,事物的变化不一定服从正态分布),离群值的出现有时很可能反映尚没有被认识事物变化规律的一种新信息。如果随意丢去测量值,相当于失去认识事物的信息,是很可惜的。在试验研究中,出现统计上离群值,如果不是粗大误差引起的,往往会反映某个试验条件变化的结果,这时更要从技术上寻找,或进行重复试验,确认离群值是技术条件原因还是试验误差引起的。方差分析能很好地处理试验条件变化与试验误差对测试结果变化的关系。一些环境监测或生化指标的检查中,在正常情况下,离群值的出现往往预示环境受污染或生化指标异常,而这正是人们要寻找的污染源或生化指标异常人群的信息。例如,大气中和废水中的有害组分的监测,样品随时间与空间的变动性很大,异常值的出现常常暗示污染情况的某种变化,循此深入进行研究,很可能发现新的污染源及污染的变化趋势。又如,区域环境背景值研究,在某些样点出现“离群值”,暗示该地区是一个高背景值区,这种“离群值”很可能为发现与防治地方病提供重要的线索。这样的“异常值”当然不能随意剔除,而应当予以专门研究。当然,如果对这些测量值有所怀疑,可进行补充试验或重复试验,以确认是由偶然因素造成的还是必然的结果。

2.1.5 可疑数据检验中的一些问题

以上介绍的检验异常值的方法多是相对检验方法,其统计量不仅与被检验的可疑值有关,还同时与其他量的分布有关。如果一组测量值较分散,表明测量的随机误差较大,可疑值(最大或最小值)即使偏离其他测量值较大,在统计上也不一定认为是离群值;而当测量的精密度较高时,即使可疑值与其他测量值相差不大,亦有可能在统计上认为是离群值。遇到这种情况,应慎重对待:

①由于测量值分布较分散(特别是实验室间的协同试验),因而可疑值的检验显得不灵敏,这时应考虑测试是否严谨,检查测试是否存在较大的随机误差(和一定的系统误差)。如果该测试方法已进行过实验室间协同试验,或有先前在正常条件下经多次测试积累的精密度数据,那亦可以按协同试验的重复性限r(和再现性限R)或先前积累的精密度数据进行判别,以避免“漏判”。

②由于测量值精密度高而使离散度本来不大的测量值在统计上被判为离群值,这时亦应以协同试验的重复性限r(和再现性限R)或先前积累的精密度数据进行判别,以免“误判”。在对标准物质分析时,如果测量值在统计上认为是离群值,但其仍然在认定值的置信范围内,将这样的异常值舍去也是不合适的,应将其保留,并说明保留的理由。

③应用奈尔法检验,已知标准差是很重要的,而且要求标准差值可靠。当测量数据不多,或认为计算的标准差可靠性差,可引用方法的重复性标准差sr,或先前积累的精密度数据。

④过多的离群值往往预示测试过程存在问题。在精密度的协同试验或标准物质定值分析中,可能有这样的实验室,它在多个水平上出现离群值,这表明该实验室在测试中存在较大的系统误差(和随机误差),可考虑剔除该实验室的部分或全部数据,因为该实验室的测量结果与其他实验室的可能不属于同一正态总体。

由此,采用多种检验方法,包括采用测试方法的重复性标准差,或采用先前积累的精密度数据,在对测量值进行离群值的统计检验中可以弥补其相对检验的不足。在标准物质均匀性检验和定值分析的数据处理时这种互为补充的检验方法尤为重要。