偏度与对称性
有时,仅用均值和方差并不足以充分描述一个概率分布。我们计算方差时,是拿“样本偏离平均值的距离”做平方运算。当方差很大时,我们无从得知偏差的方向是正还是负(平方运算略去了正负符号信息)。这时候 偏度 和 对称性 便能派上用场了。
一个概率分布曲线,以平均值为轴,如果左右任意一侧都是彼此的镜像,我们称之为对称分布。举个例子,正态分布就是对称分布。我们再来回顾一下它的公式:
图形化展现如下:
我们把非对称形态的分布称为偏态分布(相对于正态分布而言)。假设这里讨论的分布都是以平均值为0做前提条件,那么存在一种分布,分布曲线上的点由大量的小值正数与少量的大值负数组成,我们称之为正偏态,反之则为负偏态。进一步地我们通过图形化观察一下他们的差异:
通过上图可以发现:正偏态分布曲线右侧存在着长尾,而负偏态则出现在左侧。正态分布的偏度>0,负偏态分布的偏度<0,对称分布的偏度=0。
此外,正偏态分布有以下特性:众数 < 中位数 < 平均数;对于负偏态单峰分布则恰恰相反,众数 > 中位数 > 平均数。在对称分布中,三值相等。
下面我们正式给出偏度的计算公式为:
公式中的 n 为数据样本总数,μ 是算数平均值,σ 是标准差。偏度的正负号揭示了刚才讲的偏态方向。
一些时候,我们的数据样本呈现出来的偏态并不明显,但我们仍可以通过计算得出结论。我们来看一个具体的例子,数据样本是2012年至2014年标普500的日收益率。让我们来计算一下偏度、均值和中位数。
峰度
峰度用于描述一个分布曲线形态的陡缓程度,通常以正态分布曲线的峰度为参照标准,来观察波峰是更“尖”还是更“平”。我们称正态分布曲线的峰度为常峰度,所有正态分布曲线(无论均值和方差为何值)峰度均为3。峰度大于常峰度的分布叫做尖峰分布(峰度 > 3),它拥有更陡峭的波峰和更厚的尾部,反之亦然,平峰分布拥有更平的波峰和更薄的尾部。
然而,一些工具将分布曲线的超额峰度(峰度减去常峰度3)定义为峰度,这样做的目的是让正态分布的峰度重新定义为0,便于分析比较,如Python的Scipy库就是这样处理的。相比于正态分布,尖峰分布会以更大的降幅速率(下图蓝线的斜率)远离平均值。
我们给出峰度的计算公式:
同时给出超额峰度的计算公式:
当数据样本量足够大时,超额峰度可以近似为:
以上我们考虑的是在连续性分布情况下,计算峰度最完整的算数表达式四阶。对于一组服从正态分布的数据样本,我们倾向于使用一阶的定义(关于一阶与四阶,下文会作具体说明),超额峰度等于0。
接着前文的标普500日收益率的例子,我们尝试使用 scipy.stats 库的 kurtosis 函数来计算超额峰度:
其实通过观察前文绘制的日收益率直方图,便可发现,有一批数据样本超出了距离均值±3个标准差的范围内,形成了多个大尖峰,因此当我们计算得出(超额峰度 > 0)尖峰分布的结论,也就并不会过于惊讶了。
其他的标准化动差
方差、偏度和峰度的表达式是如此相似,这并非巧合。他们都是一阶标准动差,进一步地更通用K阶标准动差的表达式为:
一阶标准动差总是为 0 (E[X - E[X]] = E[X] - E[E[X]] = 0),因此我们更在意的是二阶至四阶动差。所有的标准化动差都是用来描述分布的无量纲数字。一些特殊情况下,可以通过标准动差对一个分布离正态分布(拥有标准化动差 0, σ, 0, σ2)有多接近,给出具体的量化数据。
Jarque-Bera正态检验
Jarque-Bera检验是一种常用的统计学检验方法,用于判断样本数据分布是否与正态分布拥有相似的偏度和峰度。我们可以对标普500日收益率的数据样本应用该检测,以便将数据样本的P值与正态分布的p值做比较。
Jarque Bera的原假设是服从正态分布(原假设又称虚无假设,英文“null hypothesis”。原假设成立时,有关统计量应服从已知的某种概率分布。当统计量的计算值落入否定域时,可知发生了小概率事件,应否定原假设)。因此,如果你得到了一个较低的P值,检验结果可能会把一组本该是正态分布的数据样本错误地识别成非正态分布。为了保险起见,可以在检验时,增设自定义的阈值作为判断基准。
值得注意,应该将P值解读为“非是即否”的二元判断,而不是陷入过度解读P值或者比较P值大小的牛角尖。在这里我们选用0.05作为P值判断基准。
检验判断
由于不同的编程语言语法定义各有差异,在使用程序提供的内建函数时,最好事先能够了解其默认的参数设置以及阈值标准,这有助于使测试顺利的进行并得到准确的判断结果。
可以看到,如果正确判断,我们应该期望“在样本数据的相伴概率为5%的情况下,显着性水平检测上应达到0.05”,而0.053的结果非常接近,这意味着Jarque-Bera检验正如我们预期的那样是有效果的。
通过对标普500日收益率进行检验,结果告诉我们其可能并不服从正态分布。
显著性水平?P值?
什么是显著性水平?
在假设检验中,显著性水平(Significant level,用α表示),是指当原假设为正确时人们却把它拒绝了的概率。必须在每一次统计检验之前确定,通常取 α=0.05。
显著性水平是在进行假设检验时,事先确定一个可允许的作为判断界限的小概率标准。依据显著性水平大小把概率划分为二个区间,小于给定标准的概率区间称为拒绝区间,大于这个标准则为接受区间。
事件属于接受区间,原假设成立而无显著性差异;事件属于拒绝区间,拒绝原假设而认为有显著性差异。
什么是P值?
P值的定义和显著性水平类似,但不是事先就定下的,而是通过数据样本计算得到的,即原假设是对的情况下实际却被我们拒绝了,即“弃真”错误。在检验中,我们允许犯这类错误的概率,也就是P值。
若得到 P=0.04,低于显著性水平0.05,也就是我们犯错误的概率是在允许范围内,即我们因拒绝原假设而犯错的概率是 4% < 显著性水平 5%,是被允许的,因此可以拒绝原假设,反之,不能拒绝。
举报/反馈

数据夕拾

2获赞 68粉丝
财投解读、量化分析,欢迎一起探索数据世界
关注
0
收藏
分享