在统计学中,SST(Total Sum of Squares)、SSR(Regression Sum of Squares)和SSE(Error Sum of Squares)是用来衡量回归模型拟合程度的重要指标。
1. SST(Total Sum of Squares):SST代表了因变量(观测值)与其均值之间的总变差。它衡量了所有观测值相对于整体均值的离散程度。SST的计算公式为:
\[ SST = \sum_{i=1}^{n}(y_i - \bar{y})^2 \]
其中,\( y_i \) 是第i个观测值,\( \bar{y} \) 是所有观测值的均值,n是观测值的个数。
2. SSR(Regression Sum of Squares):SSR代表了因变量的变化中可以被自变量(解释变量)解释部分的变差。它衡量了回归模型对因变量变化的解释程度。SSR的计算公式为:
\[ SSR = \sum_{i=1}^{n}(\hat{y_i} - \bar{y})^2 \]
其中,\( \hat{y_i} \) 是回归模型对第i个观测值的预测值,\( \bar{y} \) 是所有观测值的均值,n是观测值的个数。
3. SSE(Error Sum of Squares):SSE代表了因变量的实际观测值与回归模型预测值之间的差异部分的变差。它衡量了回归模型无法解释的因变量变化。SSE的计算公式为:
\[ SSE = \sum_{i=1}^{n}(y_i - \hat{y_i})^2 \]
其中,\( y_i \) 是第i个观测值,\( \hat{y_i} \) 是回归模型对第i个观测值的预测值,n是观测值的个数。
自由度的确定:
- SST的自由度为n-1,其中n为总观测值的个数。
- SSR的自由度为k,其中k为回归模型中自变量的个数。
- SSE的自由度为n-k-1,其中n为总观测值的个数,k为回归模型中自变量的个数。
通过计算这三个指标,我们可以评估回归模型的拟合程度,其中R方(\( R^2 \))可以通过SSR和SST的比值来计算,即 \( R^2 = \frac{SSR}{SST} \)。