工作中用到的调研问卷,探索的内容相对具体,涉及的变量也比较少,一般不会用到太复杂的分析方法,Excel+SPSS即可搞定,本文整理了几类常见的问卷分析思路。
拿到一份问卷数据,该如何着手分析呢?且慢,要做分析得先检查数据是不是完整、可信,所以先从数据清洗开聊。
一、数据清洗
(1)一份数据可能经历过编码、合并、拆分等,先检查数据是否完整,是否有异常值?
选择题、排序题这类封闭题型的答案是有限制范围的,针对这类题型,在spss内使用频率统计功能,查看每个题目的总量,缺失值,是否有异常值。比如:性别只有1、2两个选项,出现其他选项则说明有问题。有个小技巧,在Excel中可以使用筛选功能,快速查看每个题目的结果是否有异常值。
(2)有些用户可能会不认真填答,因此需要检查逻辑合理性,是否有前后矛盾的情况?
有些问卷,前后题目有逻辑关系,可以用这类题目做测谎题,筛选出前后矛盾的答案,比如前边用户选择了主要的出行方式是“自己开车”,后边却选择自己的年龄“小于18岁”,那么这类问卷可以视为不认真填答的,删除。
如果没有合适的题目做测谎题,也可以在编制问卷的时候设置测谎题,两种设计思路:
同一个题目前后问两遍,检查答案是否一致,如:请从下列选项中选出你最常用的地图APP。注意避免使用有两个答案的问题,比如问用户爱车的品牌就不合适,因为用户前后填答不一致,不一定都是不认真填答,也可能是因为用户本身有两辆车。设置一个有明显错误答案的问题,检查是否选择了错误的答案,如:你最常用的地图APP是哪个:混淆选项可以用 :京东。不过我们只是想检验用户的认真程度,而非考验用户的记忆力,所以测谎题要简单明确,只要认真看题就不会错。比如问用户最常用的地图APP是哪个,混淆选项用“微信”就不合适,因为用户不认真想的话,很容易把微信自带的地图当成地图APP。如果技术支持,也可以通过后台数据和用户问卷中的数据做匹配,常用的是性别、年龄、常居地之类的数据,也可以问一些明确的行为数据,比如是否用地图买过火车票。
需要注意的是:选择稳定的明确的数据来做校验题目,不要使用需要回忆的数据来校验,用户的记忆是模糊的有误差的,使用频率、使用年限,这些都不适合做校验,因为用户的记忆很可能与实际行为不完全相符。
二、样本加权
问卷调研绝大部分是抽样调研,如果想通过样本的情况去推测整体的情况,除了要考虑最小样本量之外,还需要考虑样本的代表性。群体有很多属性,并不是要求样本的每个属性都和整体一致,而是关注那些对研究问题最有影响的属性,在该属性上样本和整体尽量保持一致。
假设:年龄对用户忠诚度的影响非常大,对出行方式没有影响,那么在研究忠诚度时就需要考虑到年龄因素,而在研究出行方式时,就无需考虑年龄因素了。
一种是事前控制,区分出不同年龄段的用户,分桶按比例发放,该方法成本高很少用。
另一种是事后控制——加权 。比如问卷收集到的用户,与整体用户群分布不一致,但是我们想知道整体用户的忠诚度,此时可以通过加权的方式去调整。
具体方法如下:
先根据整体和样本的年龄分布,计算出权重值,然后再使用spss的权重功能,给数据加权。加权后再统计忠诚度。
值得注意的是,不要为了省事儿,直接计算出样本各年龄段的值,然后给个年龄段的值赋个权重,求均值。这样的结果是不对的,必须要使用spss的加权功能。
如果有多个因素,挑选最重要的一个因素加权。如果非要考虑多个因素,那么需要了解多个因素交叉后的整体分布。比如既要考虑性别、又要考虑年龄,那么需要将性别和年龄交叉,知道整体男性的年龄分布、女性的年龄分布,再计算权重,成本太高了。
三、分析思路
我们先假设一份调研问卷,带着这份问卷来看分析思路。
假设要针对大学生群体使用地图APP的情况做个调研,设计了以下问卷,通过这个问卷我们能做哪些分析呢?
3.1 描述统计,看整体分布情况
统计各选项的数量、频率是最常用到的分析,然后通过图表展现出来,可以非常直观的看出整体分布情况。
通过这个问卷,我们可以得到:
在大学生群体中,各手机地图的市场占有率,如果有整体的地图市场占有率数据,还可以比较得到,在学生群体中哪个地图更有优势。大学生群体,用户常用的功能排序,以及各功能的占比。该题是多选题,可以使用spss的“定义多重响应集”的功能。此外在计算占比的时候需要想明白,是以整体人数作为分母,还是以整体选择量作为分母,分母不同解释也不同,需要标明。本题以整体人数作为分母,占比的意义是:大学生群体中,多少人使用**功能。
3.2 差异分析,找影响因素
除了看整体分布情况,我们还可以通过差异分析,探索更多的信息。
做差异分析,第一步先找到两个可能有关系的因素;第二步将两个因素交叉统计结果,根据结果在这两个因素间做假设;第三步根据这两个因素的数据类型,选择合适的统计方法,验证假设。
通过这个问卷,我们可以分析:
(1)男性和女性对手机地图的选择有差异么
先分别计算不同品牌的用户性别占比,结果发现不同品牌的男性占比不同,性别和手机品牌都是分类变量,因此使用卡方检验。
(2)男性和女性,对手机地图的忠诚度有差异么?
先统计不同性别用户的NPS值,NPS值是等距数据(NPS这个题目,本质上是李克特量表,对该数据是否是等距数据尚有争议,但大部分情况按照等距数据处理),我们想要看男性、女性两组之间的差异,采用T检验。
(3)不同品牌的手机地图,用户的忠诚度有差异么?
与性别变量不同的是,手机品牌有4个维度,T检验只能做两组之间的差异检验,多于两组的时候采用方差分析。
(4)是否由于男性用户多导致腾讯地图的忠诚度低呢?
比如男性的忠诚度更低,而不同品牌之间男性的占比又不同,腾讯的男性用户较多,就会假设:是否由于男性用户多导致腾讯地图的忠诚度低呢。
当有两个因素的时候,可以采取协方差分析,在做方差分析的时候,将性别作为协变量纳入,分别看男性组,不同地图品牌间有差异否,女性组不同地图品牌间有差异否。
总结一下,做差异检验的统计方法常用的有三种:卡方检验、T检验、方差分析。但是,统计只是辅助判断的一种工具,也有些情况,直接看交叉后的结果就能发现差异巨大,无需统计检验肉眼都可以判断,也有些情况下,统计结果显著,但是差异实在是很微小,也不能做出明确的结论。
所以统计方法并不是重点,找到可能有关系的因素才是重点,学术研究一般会根据过往的研究提出假设,而实际工作中,绝大部分靠经验,多熟悉产品多了解用户,才会有思路。
之前有人提出要做女性地图,认为女性更看不懂地图,需要在图面上有不同的处理。实际调研下来,发现性别既不影响用户使用地图的习惯、也不影响用户对地图的感知。相反年龄明显的影响地图的使用习惯,接下来就需要进一步挖掘年龄的差异了。
3.3 相关分析,找影响因素,以及影响程度
(1)通过差异分析,我们了解到性别会影响用户的忠诚度,我们还想接着探索用户常用的功能个数是否会影响忠诚度,是不是用的功能越多,忠诚度越高呢?
此时需要用到相关分析,使用功能个数是等距数据,使用spss计算Pearson积差相关系数。相关系数介于-1~1之间,绝对值越大关系越密切,符号代表相关的方向。通常情况下,绝对值大于0.4就可以认为这两个数据之间有比较强烈的关系了。所以绝对值越大,说明这个因素的影响程度越大。
如果想探索使用频率和忠诚度之间的关系呢,使用频率是顺序数据,此时需要计算Speaman相关系数。相关是在工作中使用比较多的方法,需要注意的是,相关分析只能解释两个变量之间有无关系,不能得到因果结论。因果结论是我们基于逻辑赋予的,工作中,相关关系已经足够我们做判断了。
(2)如果我们不只是想探索单个因素与忠诚度之间的关系,还想要探索多个影响因素合并在一起对忠诚度的影响,此时可以使用多元回归的方法。
在本调研中,我们可以探索用户遇到使用问题的次数与忠诚度的关系,用户遇到的问题有4种,分别是定位问题、地点问题、路线问题、性能问题。以NPS值为因变量,将这四个问题一起作为因变量,求一个多元回归方程。但是多元回归方程的建立,对数据的要求比较高,实际调研中使用的非常少,相关系数基本够用了。
不论是相关分析还是回归分析,都只能反映出变量之间的线性相关关系,如果变量间是非线性的关系,是无法体现在相关系数上的,因此在做相关分析之前,可以先做一个散点图,直接观察一下,两个变量间是否有其他的关系可能。
如果是自己做调研,不是拿到数据了才去想怎么分析,而是在编制问卷的时候就要想清楚:我要了解什么问题,需要什么数据支撑,该用什么方法分析?
文中提到的所有统计方法,在统计书中都可以找到细致的操作步骤。本文只是列了最粗浅的统计方法,但是往往粗浅的才够直接,对实际的决策最有支持力。
参考书目:《量化研究与统计分析》邱皓政
本文由 @ 乔溪 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自 Unsplash,基于 CC0 协议