在工作中应用统计方法进行数据分析,经常发现很多统计方法都要求数据服从正态分布。那么怎么才能知道拿到的数据是服从正态分布的呢。接下来介绍最齐全的正态性检验方法:偏度和峰度,图示法,非参数检验
一、偏度和峰度
1、偏度(Skewness):描述数据分布不对称的方向及其程度。
当偏度≈0时,可认为分布近似服从正态分布;
当偏度>0时,分布为右偏,称为正偏态;
当偏度<0时,分布为左偏,称为负偏态;
2、峰度(Kurtosis):描述数据分布形态的陡缓程度。
当峰度≈0时,可认为分布近似服从正态分布;
当峰度>0时,分布的峰态陡峭;
当峰度<0时,分布的峰态平缓;
利用偏度和峰度进行正态性检验时,可以同时计算其相应的Z评分(Z-score),
即:
偏度:Z-score=偏度值/标准误
峰度:Z-score=峰度值/标准误
在α=0.05的检验水平下,若Z-score在±1.96之间,则可认为数据近似服从正态分布。
二、图示法
1、直方图:可以直观显示数据的分布形式。
2、P-P图和Q-Q图:P-P图反映了变量的实际累积概率与理论累积概率的符合程度,Q-Q图反映了变量的实际分布与理论分布的符合程度,两者意义相似,都可以用来考察数据是否服从某种分布类型。若数据服从正态分布,则数据点应与理论直线基本重合。
三、非参数检验
1、正态性检验属于非参数检验,原假设为“样本来自的总体与正态分布无显著性差异”,只有P>0.05才能接受原假设,及数据符合正态分布。
一般检验方法有两种,Shapiro-Wilk检验Kolmogorov–Smirnov检验,前者适用于小样本数据,后者适用于大样本数据。
接下来,用一个小例子来实际操作一下。
例:随机选取10-20岁的年轻人,记录身高体重性别。分析男生和女生之间的身高体重有无差异。
首先进行正态性检验。一个步骤将三种正态性检验方法全部搞定。
选择分析--描述统计--探索,
将身高选入因变量列表,将性别选入因子列表,点击 图 --勾选直方图--勾选含检验的正态图--继续--确定。
结果解读:
1,偏度和峰度看 描述
2、图示法
3、非参数检验
可以判断:男性身高Shapiro-Wilk检验p>0.05,服从正态分布;
直方图和Q-Q图近似服从正态分布;
偏度:Z-score=0.1982,峰度:Z-score=2.3925,服从陡峭的正态分布;
在进行正态性检验时,尽可能使用这三个方法相互佐证。有时非参数检验的方法判定数据有不符合正态分布,但是事实上数据是符合正态分布的,使用直方图可以直观判断出来。所以一种方法的判断结果不是绝对的。要进行多种方法的佐证才能确定最后的结果。