彻底理解中心极限定理——最重要的统计定理之一

老胡说科学

2020-04-29 07:31科学领域创作者
关注

本文参加百家号 #科学了不起# 系列征文赛。

中心极限定理(CLT)是统计学中的一个基本定理,它是一个非常简单的概念。当你进一步阅读时就会发现,这也是一个很重要的概念。在阅读任何其他正态分布之前,必须了解一个先决条件概念,请阅读我关于正态分布的文章彻底理解正态分布——强大的数学分析工具,它是中心极限定理的完美前传。

中心极限定理的准定义是:

中心极限定理(CLT)指出,如果样本量足够大,则变量均值的采样分布将近似于正态分布,而与该变量在总体中的分布无关。

解码晦涩的定义

让我们直接进入一些例子!

示例# 1

选取一个均匀分布[0,1],它被称为均匀分布,因为在0和1之间选择值的概率相等,因此它的概率密度函数(PDF)是水平的直线。现在,让我们假设我们从这个分布中随机抽取20个样本(绿点)并计算这些样本的均值,我们得到一个值,在这个例子中是0.5,用虚线表示。让我们把这个平均值画在直方图上。由于这个柱状图到目前为止只有一个平均值,它并没有告诉我们任何其他信息(左图)。继续从相同的分布中提取更多的随机样本,计算各自的平均值并将这些平均值绘制在直方图上,我们开始得到一个有趣的结果。

随着我们从均匀分布中抽取越来越多的随机样本,并在直方图上绘制样本均值,我们得到一个正态分布结果如下(见右曲线)。

推论:

我们从均匀的数据分布开始,但是从中抽取的样本均值是正态分布。

例# 2

在第二个例子中,让我们按照与第一个例子相同的步骤,唯一的不同是我们这次要从指数分布中提取样本。

我们将再次随机抽取20个样本,计算样本的均值,并将其绘制在直方图上。计算100这样的样本的均值并将其画在直方图上,这样的分布对我们来说并不陌生。样本均值是正态分布!

推论:我们从指数数据分布开始,但从中抽取样本的均值得到正态分布。

我们从指数数据分布开始,但是从中抽取的样本均值得到正态分布。

因此,它在这一点上变得非常直观,中心极限定理意味着什么?

中心极限定理意味着即使数据分布不是正态的,从中抽取的样本均值的分布也是正态的。

知道样本均值总是正态分布的实际含义是什么?

在分析领域,我们每天都会遇到各种各样的数据,而源数据的分布并不总是被我们所知道的,但是,因为我们了解中心极限定理,所以我们甚至不需要关心源数据的分布,因为我们总是可以得到正态分布。

为了使中心极限定理能够起作用,我们必须能够计算出样本的平均值。有一个分布称为柯西分布,没有样本均值,从而中心极限定理论并不适用于它,但除了柯西分布,我没有遇到除中心极限定理以外的任何其他分布。)

下面是了解均值正态分布的实际含义:

我们可以用均值的正态分布来分配置信区间。我们可以进行T检验(即两个样本均值之间是否存在差异)我们可以进行方差分析(即3个或更多样本的均值之间是否存在差异)这篇文章涵盖了我们在处理数据和样本时应该知道的中心极限定理的整个理论。

举报/反馈