计量模型方法论

计量模型方法是在统计技术的基础上发展的纯粹的自动评分模型,主要包括逻辑回归、判别分析、主成分分析、神经网络模型等方法。计量模型方法对数据的依赖性较强,必须有充分、准确、完整、有效的定量数据才能确保模型的准确性。因此,数据积累不足和数据基础薄弱的银行不适用此种方法。

1.逻辑回归

逻辑回归(logistic regression)模型是计算违约概率(PD)的传统工具,其基本原理是对已有客户的违约和非违约样本进行0,1分类(例如,客户发生违约记为1,客户不发生违约记为0),根据业务规则,选取一组指标X=(x1,x2,…,xn)作为解释变量。取得这些已有先验数据的样本后,将PD=P(Y=1|X)设为客户发生违约的概率,1-PD=P(Y=0|X)为客户不发生违约的概率,那么客户发生违约和不发生违约的概率之比为(称为违约事件的发生比,表示为Odds),因为0<PD<1,所以Odds>0,对这个比值取自然对数,建立线性回归方程:

逻辑回归的模型构建过程如图3-2所示,图中横轴为自变量(或解释变量)的取值,纵轴为客户违约概率,★代表违约客户样本,●代表非违约客户样本,倾斜的直线为线性回归方程:Z=β0+β1x2+β2x2+…+βnxn,粗体的曲线为逻辑回归方程

图3-2 逻辑回归示意图

逻辑回归模型实际上是普通多元线性回归模型的推广,其误差项服从二项分布而非正态分布,因此,在拟合时采用最大似然估计法进行参数估计。

利用先验样本得出逻辑回归函数:

然后将被评级客户的相应变量代入上述判别分析式,就可以直接求出该评级客户的违约概率为:

国内外先进银行的实践经验表明,逻辑回归分析对于估计违约概率是比较有效的。

2.判别分析

判别分析是一种通过度量特定范畴内的因素,对事物进行预测和分类的方法。例如,判断银行客户是否会在一定时期内违约,只要能确定所有可能的影响因素,模型就可以使用这些因素在违约和非违约之间做出判别。在错判概率最小或错判损失最小的前提下,建立一个计算准则,依据该准则对给定样本的违约状况进行判别分析。

违约概率的计算属于多元判别分析,具体的步骤为:

首先,将已有客户的数据按其违约记录分为违约组和非违约组。根据业务逻辑和信贷经验,对两组样本选择相应的自变量指标形成基础数据样本。

接下来,求取一组自变量的最佳权重,使违约组和非违约组之间的分离度达到最大。其中,分离度是组内数据点距离之和与组间数据点距离之和的函数。为了便于理解,假设以三个指标x,y,z来计算客户的违约概率,求取这三项指标的最佳权重a,b,c,将客户的数据样本表示为三维向量的空间点阵,如图3-3、图3-4所示。求取最佳权重的几何意义是寻找一个向量,使得在沿着这个方向观察到的横截面上,违约样本和非违约样本的分离度达到最大。从统计上可以证明,不断旋转权重向量,总能找到一组权重a1,b1,c1,使违约样本和非违约样本能够最大限度地分离。由此,得到判别分析公式:

图3-3 判别分析法指标和权重示意图

图3-4 判别分析最佳向量的横截面

将被评级客户的相应变量x,y,z代入上述判别分析式,求得其与两组样本(违约样本和非违约样本)中心点的空间距离,其中距离较小表示客户与该组样本相似。由此将客户归入违约类或非违约类,并根据空间距离的远近求出被评级客户的违约概率。

3.主成分分析

主成分分析是空间旋转构造原始变量的线性组合,它产生了一系列互不相关的新变量,从中选出少数主要变量,这些变量包含了尽可能多的原始变量信息,从而使用这几个新变量代替原始变量分析和解决问题成为可能。当研究对象确定后,变量中所含信息的多少通常用该变量的样本方差来度量。在现实经济生活中,影响违约概率的因素很多,如企业的经营状况、财务状况、还款意愿、担保品价值、政府干预等,这些因素对违约的发生有不同程度的影响。对违约概率的分析没有必要考虑所有的影响因素,运用主成分分析可以从变量的相互影响关系中提取主要因素,并根据各要素所含信息的多少确定变量关系和计算方法。

统计实验表明,该方法可以有效地确定解释变量集合,特别是在无监督学习(只有可能的自变量集合,缺乏违约记录)过程中,能够发挥逻辑回归和判别分析所不具备的功能。若与其他模型结合,通常会收到良好的效果。

4.神经网络模型

神经网络模型是近年来发展起来的一种信用分析模型,能深入挖掘预测变量之间的关系。它的基本原理是神经网络接收一组输入信息并产生反应,然后与预期反应相比较。如果错误率超过可接受水平,则需要对权重做出修改并开始学习过程。经过反复循环,错误率可以降至可接受水平。达到持续的可接受水平后,学习过程就接受并锁定权重。因此,这种处理过程与传统的多元统计模型相似,唯一的不同之处在于,权重是经过反复试错得到的,而不是通过最优解析方式得到的。

利用神经网络模型来估计违约概率比较困难,原因主要有:计算量非常大,建模时不能利用大容量数据,因为当训练样本很大时,计算所需的时间很长,所需的空间也变得非常大;神经网络模型得到的权重通常是局部最优解,而不是全局最优解,因此对初始值的选择要求非常高;神经网络模型的解释力比较差,不容易被监管机构接受;容易产生过度拟合问题,预测力比较差。因此,商业银行基本上不会采用神经网络模型来估计违约概率。

银行估计各个评级客户的违约概率后,按照违约概率从小到大排列,然后根据业务实际和违约概率的区间对所有的评级客户进行评级。