Hello!
这是你与「大学生科研竞赛」的第次相遇。
如果你是尚未接触过论文写作的小白,你是否好奇究竟是如何对庞大数据进行科学分析的?
如果你是刚刚入门的小白,你是否苦于总是看不懂那些因期刊篇幅限制而不展现的步骤?
如果你是想发paper的基础选手,你是否明白研究变量更适合哪种分析方法?
今天,小竞就写论文必不可少的数据分析方法这一要点,给大家进行一次较为系统的梳理和科普,一共分为检验数据可用性和分析数据关系两大版块,为大家介绍了当前较为主流的分析方法。
此外,小竞还结合SPSS的操作步骤与输入结果进行讲解,让大家更形象的理解如何操作、如何对输入结果进行分析判断。
01
必备数据可用性检验
我们写论文过程中需要进行数据分析时,不管是通过问卷调查得到的一手数据,还是在数据库等渠道获得的二手数据,都需要先对数据进行描述性统计、信度、共同方法偏差等检验。只有通过这些检验的数据才适合进一步分析,否则需要找出数据异常的原因并进行排除。
(一)描述性统计
1.概念:描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的频数、集中趋势、离散程度、分布以及一些基本的统计图形。
2.SPSS操作:单击菜单栏:“分析”——“描述统计”——“描述”,单击“选项”,在弹出的对话框中,在“均值”、“方差”前打勾选中。
表1描述性统计输出结果
(二)信度
1.概念:代表测量的可靠程度,或不受测量误差影响真分数测量的程度。一个好的测量,它的结果是可靠的,多次反复测量,其结果保持一致。
信度分析的方法主要有三种:Cronbachα信度系数法、折半信度法和重测信度法。其中,Cronbachα信度系数法为最常使用的方法,即通过Cronbachα信度系数测量测验或量表的信度是否达标。
2.SPSS操作:单击菜单栏“分析”——“度量”——“可靠性分析”。
表2可靠性分析输出结果
Cronbach’s Alpha项数
.
4
3.结果分析:一般Cronbach’sAlpha值大于0.7,则说明数据的可靠程度较好。
(三)效度
1.概念:反映测量工具能够正确无误地测出潜在特质的程度,也就是研究者可以掌握到抽象意义的程度。
效度有很多种,可分为四种类型:内容效度、结构效度、区分效度、聚合效度。较为主流的为区分效度,通过计算平均变异数抽取量(AVE)进行分析,该构念的各因素负荷量平方和的平均值。
2.SPSS操作:单击菜单栏“分析”——“降维”——“因子分析”。
3.结果分析:潜在变项的变异抽取量(VE)是计算潜在变项各测量变项对该潜在变项的变异解释力,若VE值愈高,则表示潜在变项有愈高的信度与收敛效度,一般要求其标准值须大于0.5。
区别效度之判定标准为:若每一个变项之变异抽取量(VE)须大于各成对变项间之相关系数平方值,则称为具有区别效度。因此我们只要证明,所有构念之间的最小AVE大于相关系数矩阵中的最大值的平方值,即代表有良好的区别效度。
表3因子分析输出结果
(四)共同方法偏差检验
法一:Harman单因素法
1.概念:Harman单因素检验假设如果方法变异大量存在,则进行因素分析时,要么析出单独一个因子,要么一个公因子解释了大部分变量变异。
2.SPSS操作:单击菜单栏“分析”——“降维”——“因子分析”
3.结果分析:观察“解释的总方差”表中“提取平方和载入”下的“累积%”,若不超过30%,则通常认为共同方法偏差不严重。
表4因子分析输出结果
法二:偏相关分析法
1.概念:偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程。
2.SPSS操作:菜单栏单击“分析”——“相关”——“偏相关”
3.结果分析:判定指标是相关系数的值,值越小,则相关程度越低,共同方法偏差程度越低。
表5偏相关输出结果
(五)自相关检验
1.概念:自相关是对随机扰动项之间相互独立假定的违背,指扰动项序列相邻期之间不是随机独立而是存在相关关系,又称为序列相关。
自相关主要检验方法为D-W检验。
2.SPSS操作:单击菜单栏“分析”——“回归”——“线性”;单击“统计量”,在弹出的对话框中,勾选“Durbin-Watson”;
3.结果分析:DW统计量的值在0~4之间。一般说来,其值接近0,则倾向有正的一阶自相关;其值接近4,则倾向有负的一阶自相关;其值接近2,则倾向无一阶自相关。
表6DW检验输出结果
(六)多重共线性检验
1.概念:多重共线性是指自变量之间。线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
主要采用方差扩大因子(VIF)法,VIF是容限度的倒数,容限度是由每个自变量Xi作为因变量对其他自变量回归时得到的余差比例。
2.SPSS操作:单击菜单栏“分析”——“回归”——“线性”;单击“统计量”,在弹出的对话框中,勾选“共线性诊断”。
3.结果分析:VIF值越小越好,一般小于10则不存在严重的多重共线性。
表7VIF输出结果
02
数据关系分析
通过以上检验的数据便基本可以用来进行各种分析啦,比如回归分析、聚类分析、方差分析等等。
那这么多的分析方法,我这些数据适用哪些方法?不同分析方法要如何选择呢?
答案见下表!
小竞以因变量和自变量的类型为分类标准,为大家汇总整理了常用分析方法,以及各自的统计分析目的,总有一款适合你~
表8统计方法
变量类型
统计分析方法
统计分析目的
因变量
自变量
定量
定量
回归分析(或线性模型)、相关分析
描述一个或多个自变量与一个因变量之间的因果依存关系,或变量之间的相关关系
定量
定性
T检验、方差分析
描述一个连续型因变量与一个或多个定类自变量之间的关系
定量
定性、定量
协方差分析(或线性模型)
描述在控制了一个或多个连续型自变量的影响下一个连续因变量与一个或多个定类自变量之间的关系
定性
定性
列联分析、Logit模型
描述定性变量之间的相互影响关系
定性
定量
Logistic回归分析、判别分析、聚类分析
描述多个定量变量与定性变量之间的依赖关系
定性
定性、定量
对数线性模型
描述定性或定量变量与分类变量之间的关系
定性、定量
定性、定量
/
/
相依模型
主成分分析、因子分析、对应分析等
描述变量、样品或类型之间的结构关系
文末说正事由于