2025年12月15日 08:52:55 来源:沧州泰鼎恒业试验仪器有限公司 >> 进入该公司展台 阅读量:2
附 录A 正态样本异常值的判断及处理方法——狄克逊准则
在一组重复测量数据中,若有个别数据与其他的有明显差异,则很可能含有粗大误差,称其为可疑数据,需要对这些异常值做出正确的判断和处理。通常采用统计的方法进行判别,统计方法处理的基本思想是:给定一个显著性水平,按一定分布确定一个临界值, 凡超过这个界限的误差,则认为它是异常值,应予以剔除。
本附录介绍一种常用的正态样本异常值的判断和处理方法——狄克逊准则。该方法于对正态或近似正态的样本数据进行判别,适用于样本量为3~30、总体中含有一个以上异常值的情况。
狄克逊准则,是狄克逊(Dixon)在1950年提出的一种不需要估算平均值
和标准差 S便能判断总体中含有异常值的方法,它根据测量数据按大小排列后的顺序差来判别粗大误差,用狄克逊准则判断样本数据中混有一个以上异常值的情形效果较好。以下介绍常用的狄克逊双侧检验准则。
设正态测量总体的一组样为x1,x2,...xn,,按大小顺序排列为:
构造检验异常值
和低端异常值
的统计量,分以下几种情形:

以上的r10,
,…,r22,
简记为rij和
。狄克逊认为对不同的测量次数,应选用不同的统计量rij, 才能达到良好的效果。狄克逊导出了它们的概率密度函数。在选定显著性水平D(α,n) 下,求得临界值D(α,n), 见表A-1。
表A-1 狄克逊双侧检验的临界值
n | 统计量 | α=0.05 | α=0.01 |
3 |
r10和 | 0.970 | 0.994 |
4 | 0.829 | 0.926 | |
5 | 0.710 | 0.821 | |
6 | 0.628 | 0.740 | |
7 | 0.569 | 0.680 | |
8 |
r11和 | 0.608 | 0.717 |
9 | 0.564 | 0.672 | |
10 | 0.530 | 0.635 | |
11 |
r21和 | 0.619 | 0.709 |
12 | 0.583 | 0.660 | |
13 | 0.557 | 0.638 | |
14 |
r22和 | 0.586 | 0.670 |
15 | 0.565 | 0.647 | |
16 | 0.546 | 0.627 | |
17 |
r22和 | 0.529 | 0.610 |
18 | 0.514 | 0.594 | |
19 | 0.501 | 0.580 | |
20 | 0.489 | 0.567 | |
21 | 0.478 | 0.555 | |
22 | 0.468 | 0.544 | |
23 | 0.459 | 0.535 | |
24 | 0.451 | 0.526 | |
25 | 0.443 | 0.517 | |
26 | 0.436 | 0.510 | |
27 | 0.429 | 0.502 | |
28 | 0.423 | 0.495 | |
29 | 0.417 | 0.489 | |
30 | 0.412 | 0.483 |
若
rij>
,rij>D(α,n)
则判断
为异常值,予以剔除;
若
rij<
,
>D(α,n)
则判断
为异常值,予以剔除; 否则,判断没有异常值。
重复上述步骤,便可剔除一个以上的异常值。