二元logistic回归分析流程如下图:
一、分析前准备二元logistic回归分析适用于研究因变量为二分类变量的数据,二分类变量即为那些结局只有两种可能性的变量。比如因变量表示为“是”或“否”、“同意”或“不同意”、“发生”或“不发生”这类形式。
当前有一份数据,想要分析在银行贷款的客户其“是否违约”的影响因素,当前掌握的可能影响因素有年龄、工资、教育水平、负债率、信用卡负债、工作年限、居住时长。
在进行二元logistic回归分析之前,需要进行一些准备工作,来提高分析结果的准确性。准备工作包括进行分析项即自变量的确定、多重共线性判断、以及变量处理三方面,接下来将逐一进行说明。
确定分析项因为影响因素比较多,并不能确定单个影响因素是否会对“是否违约”这一因变量产生影响,为了筛选确实对因变量有影响的自变量进行分析,可以在进行二元logistic回归分析之前就单个因素的影响情况进行分析(非必要步骤)。根据影响因素类型不同,可以分别进行方差分析(t检验)、卡方检验进行分析。1.1 连续变量方差分析对于年龄、工资、负债率、信用卡负债、工作年限、居住时长这类影响因素,都是连续型变量,研究此类变量与“是否违约”的关系情况可以使用方差分析进行分析。使用SPSSAU进行方差分析得到分析结果如下:从方差分析结果来看,违约客户与未违约客户的信用卡负债情况并没有呈现出显著性差异(p=0.061>0.05),其余变量都呈现显著性差异。所以,可以将信用卡负债率这一影响因素在后续分析中剔除(如果担心遗漏重要变量,也可以将显著性水平放宽至0.1)。
分类变量卡方检验对于教育水平这一分类变量,研究其与“是否违约”的关系情况可以使用卡方检验。
使用SPSSAU进行卡方检验得到分析结果如下:
从卡方检验结果来看,不同教育水平的客户其“是否违约”情况呈现出显著性差异(p=0.。022