假设检验,作为评估研究结果统计显著性的重要手段,其显著性不仅受到处理效应大小或强度的影响,还与样本量紧密相关。值得注意的是,仅仅显著并不足以衡量效应的大小,因此,在解读假设检验的结果时,标注效应大小的测量显得尤为重要。这一原则同样适用于卡方检验。
在进行卡方独立性检验时,我们常常通过交叉表来探究两个类别变量之间是否存在显著关系。然而,这种方法并未提供关于变量间关联强度的具体信息。为了更深入地了解变量的相关性,我们可以借助Cohen's ω、Phi以及Cramer's V系数来进行进一步的分析。
特别地,Jacob Cohen在1992年为两种卡方检验引入了共同的效应量ω(欧米伽)。与卡方统计量的公式相似,Cohen's ω通过比例而非频数来衡量效应大小,为研究者提供了更多关于变量间关系的细节。
在卡方检验的上下文中,po代表的是数据的实际比例。这一比例是通过将每个实际频数除以总的样本量来计算的。通过理解实际比例,我们可以更深入地探究两个类别变量之间的关联强度。
类似地,pe代表的是数据的期望比例,这一比例基于虚无假设进行确定。在计算pe时,我们需要遵循以下步骤:
分别计算每个单元格(即每个类别)的实际比例与期望比例之间的差异。
对于每个单元格,将上述计算出的差值平方,然后除以该单元格的期望比例。
将步骤2中计算出的所有数值相加,并取其平方根。
接下来,我们通过一个实例来详细展示这一计算过程。假设研究人员正在探究学生对镇上四家比萨店的偏好情况。他们从四家店订购了新鲜的比萨,并邀请了n=40名学生作为样本进行品尝。每个学生都有机会品尝到全部四家店的比萨,并最终选择出自己最喜欢的那一家。接下来,我们可以根据这些数据来计算实际频数。
虚无假设认为,总体上对这四家比萨店并无特殊偏好,因此每家店的期望比例都应为p=25。然而,实际品尝结果却显示,四家店的实际比例分别为:A店,6/40=15;B店,12/40=30;C店,8/40=20;D店,14/40=35。接下来,我们将详细展示如何根据这些数据计算pe。
Cohen(1992)进一步阐释了ω的大小准则:当ω接近10时,表示效应较小;若ω为30,则视为中等效应;而ω超过50时,则可视为大效应。根据这些标准,例5中所得的数值属于中等效应范畴。值得注意的是,在ω的计算过程中,并未涉及到样本量这一参数。相反,它仅依赖于样本比例与虚无假设的比例。因此,样本量并不会影响ω的大小。这一特性同样适用于其他效应量指标。
另一方面,样本量对假设检验的结果确实具有显著影响。例如,当例5的数据得出χ2=4,df=3时的临界值为81时,我们无法拒绝四家比萨店间无显著偏好的虚无假设。然而,若每个类别的被试数都翻倍,即实际频数变为28,那么新的χ2值将变为8,此时卡方值位于拒绝域内,我们便有理由拒绝H0,认为存在显著偏好。由此可见,增加样本量会提高拒绝虚无假设的可能性。但值得注意的是,尽管新样本的比例与原样本相同,ω的值却保持不变,仍为316。
尽管Cohen's ω可用于衡量独立性卡方检验的效应大小,但在处理大规模数据矩阵时,φ系数与克莱姆的V系数可能更为适用。这两种效应量指标考虑了数据矩阵的大小,被普遍认为是Cohen's ω的优选,尤其是在数据矩阵规模庞大的情况下。
在独立性卡方检验的数据呈现为2×2矩阵的情况下,我们可以计算相关值φ(Phi系数)来进一步分析数据。φ作为一种相关系数,主要衡量关系程度而非显著性,因此它提供了关于效应大小的详细测量。值得注意的是,φ系数可以直接通过卡方检验计算得出,其公式如下:
值得注意的是,在2×2矩阵的情况下,Cohen's ω与φ系数是等价的。φ系数仅依据矩阵中的比例进行计算,与实际频数的具体大小无关。然而,卡方值则同时受到比例和频数大小的影响。接下来,我们将通过一个实例来探讨性别与两位学生会主席候选人偏好之间的关系。
注意,根据现有资料,男性对候选人B的偏好是女性的两倍,而女性对候选人A的偏好也是男性的两倍。同时,我们还需要知道,此次调查共有30名男性和30名女性参与。基于这些数据,我们计算出卡方值为33(不显著),而φ系数为333。
接下来,我们将继续沿用相同的比例关系,但会将所有频数进行加倍处理。这样,新的数据将呈现为:
男性对候选人B的偏好程度是女性的两倍,而女性对候选人A的偏好程度也是男性的两倍。值得注意的是,此次调查涵盖了30名男性和30名女性。基于这些新数据,我们计算出卡方值为67(显著,05),这比之前的值增大了两倍,而φ系数则保持不变,仍为333。由于两个样本的比例关系保持一致,φ系数因此保持稳定。然而,样本规模的扩大为我们的发现提供了更有说服力的证据,使得结果更加显著。
同样地,我们使用φ系数来评估相关性。根据标准,10表示小效应,30表示中等效应,而50则表示大效应。值得注意的是,φ系数的值有时可以与r²相当,用于解释变异量。
此外,当卡方检验涉及到的矩阵维度超过2×2时,我们可以通过修正φ系数来得到克莱姆的ν(nju,纽)系数(Cramer’s ν),该系数同样可以用来衡量效应量的大小。
注意,克莱姆的ν系数公式与φ系数公式相似,只是分母乘以df*。然而,df*与卡方检验的自由度并不相同,但它们之间存在某种关联。回顾独立性卡方检验的公式,其中R是行数,C是列数。对于克莱姆的ν系数,df是(R-1)和(C-1)中的较小值。Cohen(1988)提供了克莱姆的ν系数的解释标准,列于下表。值得注意的是,在2×2矩阵中,当df*=1时,解释ν系数与解释相关性或φ系数是完全一致的。
Phi系数主要用于处理两个类别变量,且这两个变量各自仅有两个选项的情况,即所谓的2×2交叉表。通过卡方值,我们可以计算出phi值来衡量变量间的关联程度。而Cramer’s V系数,作为Phi系数的修正版本,不仅适用于2×2交叉表,还适用于其他所有类型的交叉表。同样地,我们也是利用卡方值来计算Cramer’s V系数。
值得注意的是,这些数值的概念与相关系数有些相似,但它们的判定标准却更为宽松。通常,当系数值位于00至15之间时,表示两个变量之间的关系非常弱;当系数值位于15至30之间时,表示关系为中等强度;而当系数值超过3时,则表示关系非常强。
为了具体说明这些概念,我们可以以性别与婚姻状态这两个类别构面为例。在SPSS中,我们可以按照以下步骤进行分析:首先选择「分析」,然后选择「描述统计」,最后选择「交叉表」来进行相应的计算和分析。
将性别与婚姻状况变量依次选入右侧的分析框内。
在左侧的选项中,点击「统计量」,然后选择「Phi和Cramer's V」,最后点击「继续」以进行下一步操作。
经过上述步骤,您将得到如下表1所示的Phi与Cramer's V系数表。从表中可以看出,性别与婚姻状况之间的phi值为-.010,同时Cramer's V值为.010,这表明两者之间的关系极为微弱。