聚类分析:聚类分析是通过数据建模简化数据的一种方法。“物以类聚,人以群分”正是对聚类分析最好的诠释。本文就具体介绍一下聚类分析,以及就按样本进行聚类分析的分析思路进行说明(分层聚类将在之后的文章中介绍)。
一、聚类分析分类
对样本进行聚类分析(Q型聚类),此类聚类的代表是K-means聚类方法;
对变量(标题)进行聚类分析(R型聚类),此类聚类的代表是分层聚类。
常见为样本聚类,比如有500个人,这500个人可以聚成几个类别。
资料来源:SPSSAU帮助手册-聚类分析 聚类分析(Q型聚类)用于将样本进行分类处理,通常是以定量数据作为分类标准。如果分析人员需要是按样本进行聚类,则使用SPSSAU的进阶方法模块中的“聚类分析”功能,SPSSAU其会自动识别出应该使用K-means聚类算法还是K-prototype聚类算法。
如果是按变量(标题)聚类,此时应该使用分层聚类,并且结合聚类树状图进行综合判定分析,得出科学分析结果。比如当前有8个裁判对于300个选手进行打分,试图想对8个裁判进行聚类,以挖掘出裁判的打分偏好风格类别情况。
二、Q型聚类分析的优点
1、可以综合利用多个变量的信息对样本进行分类;
2、分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果;
3、聚类分析所得到的结果比传统分类方法更细致、全面、合理。
三、分析思路
以下分析思路为对样本进行聚类分析。
(1)指标归类
当研究人员并不完全确定题项应该分为多少个变量,或者研究人员对变量与题项的对应关系并没有充分把握时,可以使用探索性因子分析将各量表题项提取为多个因子(变量),利用提取得到的因子进行后续的聚类分析。
特别提示:分析角度上,通过探索性因子分析,将各量表题项提取为多个因子,提取出的因子可以在后续进行聚类分析。比如:可先讲20个题做因子分析,并且得到因子得分。将因子得分在进一步进行聚类分析。最终聚类得到几个类别群体。再去对比几个类别群体的差异等。
(2)聚类分析
第一步:进行聚类分析设置
如果使用探索性因子分析出来的因子进行聚类分析,当提取出五个因子时,应该首先计算此五个因子对应题项的平均分,分别使用平均得分代表此五个因子(比如因子1对应三个题项,则计算此三个题项的平均值去代表因子1),利用计算完成平均得分后得到的因子进行聚类分析。
第二步:结合不同聚类类别人群特征进行类别命名
聚类分析完成后,每个类别的样本应该如何称呼,或者每个类别样本的名字是什么,软件并不能进行判断。得到聚类类别后,SPSSAU系统默认生成一列数据表示聚类类别,为了探索出各个类别的具体特征,因而使用方差分析去研究各个类别群体的差异性,最终研究人员可结合各个类别特征以及实际专业知识情况,对每个类别分别进行命名,而不能直接称呼为类别1,类别2等,需要每个类别有具体的名称意义。
(3)聚类效果检验
严格意义上聚类分析并非统计检验分析方法,而是一种数据描述性方法,聚类分析没有的统计假设检验理论支持,无法对其结果正确与否进行判断。但从应用角度来看,聚类效果可以进行判断,研究人员可以结合以下几种方法进行综合判断聚类效果。
第一为聚类分析后得到的每个类别是否可以进行有效的命名,每个类别的特征情况是否符合现实意义,如果研究者可以结合专业知识对每个聚类类别进行命名,即说明聚类效果良好,如果聚类类别无法进行命名,则需要考虑重新进行聚类分析。第二为使用判别分析方法进行判断,将SPSSAU生成的聚类类别变量作为因变量(Y),而将聚类变量作为自变量(X)进行判别分析,判别分析具体分析聚类变量与类别之间投影关系情况,如果研究人员对聚类分析效果非常在乎,可以使用判别分析进行分析。大部分时候并不会进行判别分析对聚类效果进行分析,原因在于即使是使用判别分析也不能绝对地说明聚类分析是否良好,以及聚类分析实质上为描述性方法,并没有好坏标准,这里暂且不对判别分析进行说明。第三是聚类分析方法的详细过程说明,描述清楚聚类分析的科学使用过程,科学的聚类分析方法使用即是良好结果的前提保障。第四为聚类分析后每个类别样本数量是否均匀,如果聚类结果显示为三个类别,有一个类别样本量非常少,比如低于30,此时很可能说明聚类效果较差。针对聚类效果的判断,研究者主要是结合专业知识判断,即聚类类别是否可以进行有效命名。