四、信用评分的原理

1、信用评分的基本原理

信用评分之所以可以进行行为预测,是基于一条公认的原理:消费者个人行为在一定时间内是连续的,利用消费者过去的特征和行为可以在一定程度上预测今后的表现。这一原理可以在下图中看出:

其中利用消费者过去的特征和行为分析其今天的表现,这是一个建立评分模型的过程;而借助这个评分模型我们可以利用消费者今天的特征和行为来预测其未来的表现。通常,信用局或者是金融机构在开发模型时需要3-5年的历史数据,同时要有足够多的数据量,这样才可以保证数据评分

2、信用评分的应用原理

信用评分在实践中被证明是有效的,它的准确性可以通过上述的基本原理来说明,但是其快速、高效地识别风险又是如何实现的呢?答案应该是信用评分可以量化风险,我们下面做进一步的论述。

如前所述,分数表示对某种事件发生概率或几率的预测。量化风险实际上就是“预测事物发生的可能性”,其意义在于我们可以比随机方式增加更多辨认风险的机会。量化风险可以让我们基于一个事物发生的可能性进行排序。同样信用评分可以根据事物的特征预测风险发生的可能性,从而对风险的高低进行排序。

信用评分的排序功能可以帮助我们将事物分成基本的两类,例如有反应和没反应,或者是还款良好的账户和还款较差的账户等等。进一步说,这一点功能可以帮助我们将事物从“最有可能发生”到“最不可能发生”进行排序,这一点也是信用评分的识别能力的具体体现。

我们可以从一个具体的商业例子进行说明。假设在一个商业机构中,它的历史数据告诉我们有25%的客户拖欠贷款。假设这一机构每周有20笔申请业务,基于历史数据我们可以知道这其中有5个申请人(25%的概率)会拖欠贷款。所以工作人员的关键工作是正确地找到这5个坏客户。这里有两种方法:

第一种方法是常规的方法。如果你只是随机地从中选取4 个申请人,你可能找到1名坏客户,占坏客户的20%。如果继续随机抽出4 名客户,你可能又找到1名坏客户,累计查询40%的客户,并查到40%的坏客户,依次类推。从中我们可以看出这样排查坏客户的效率是很低的。

第二种是利用信用评分的方法。利用信用评分,我们可以将所有客户按还款的可能性进行排序,如图中所示,从5到1排序表示了从“最不可能还款”到“最可能还款”。其中,评分为5的客户中有2名坏客户,评分为4的客户中也有2名坏客户。由此可以清楚地看出,坏客户的分布比随机状况下要集中多了。此后,我们按照从5到1的次序进行识别客户好坏,并且与第一种方法进行比较。我们可以清楚地看到,在识别了第一个20%的客户后,我们找到了40%的坏客户,在识别了第二个20%的客户后我们找到了80%的坏客户,在识别了60%(12名)的客户后,我们找出了所有的坏客户,其效率远远高于第一种方法。

3、信用评分的基本分类

个人信用评分类产品都是用于预测的,预测的目标要根据信用评分产品的用户需求进行开发。一般而言,常用的信用评分是对消费者个人信用进行评价的一种定量化描述技术。它用来预测消费者“准时且足额”偿还信贷的可能性,即预测某信用评分分值下,守信偿贷的消费者比例。或者,反过来,它可以预测失信消费者的比例,称之为违约率预测。信用评分是将消费者个人的信用状况进行量化分析的结论。对消费者个人的信用评分可以分成两种不同的类型:

一种类型是信用许可评分,用于设置核准信用申请的门槛,即信用评分的数学模型具备简单地判断一个信用申请是否应该被接受的功能。另一种类型是信用行为预测评分,其数学方法追求的是“分离度”指标,就是追求样本内的差别最大化。这种信用评分数学模型需要建立这样的功能,在排除了最好和最坏申请人群以后,对于处于“灰色地带”的消费者,按照其违约可能性进行近乎连续性地细分。

(1)信用许可评分

信用许可评分原理是,采用排除法对消费者以往信用记录进行分析,以分析不良信用记录为主,并考察消费者拥有的符合信用许可的基本条件,排除信用不良申请人,保留信用优良申请人。它使用“满足信用许可条件”和“不满足信用许可条件”的客户分类,来预测客户信用风险,属于“是或否”形式的信用评分。

发放信用卡的商业银行或信用卡公司每天都收到数以千计的信用卡申请。在分析消费者个人信用记录的基础上,发卡公司或银行首先要排除那些信用绝对不良的申请人,然后找出那些信用记录好的消费者作为优质客户。例如,授信机构根据自己的信用政策,将“门槛”分值以下的信用申请自动输入拒绝信函回复系统,由自动化处理系统打印出标准的“拒绝信用申请信函”,回复给信贷或信用卡的申请者。

可见,信用许可评分的目的是简单地区分出“最好”和“最不好”的潜在授信对象。

(2)信用行为预测评分

信用行为预测评分的任务是,对介于信用最好和最不好之间的消费群体进行细分,对其将来的违约风险进行预测,使用一种数字或字母系统来表述一个人信用评分的差异,进而区分违约的机率。这种数学模型要求的建模技术非常高,要求数学模型能够细致地将个人信用评分细分成数百上千个档次。

在市场竞争白热化的条件下,信用评分极低的信用状况不良者已被排除,而信用评分较高的信用状况优秀者也已被各授信机构争夺完毕。在此种情况下,发放信用的金融机构或商品赊销商需要在信用评分处于中等水平的潜在客户群中挑选合适的授信目标。此时,信用行为预测评分工具对于授信机构的重要性尤其突出。而且,评分要相当细致才能满足授信单位的需要。因为,不同的授信机构所愿意或有能力承受的风险不同,所设置的信用标准也不同。所以,在现实中能够见到这样的情况:一个信用卡申请可以被一家商业银行拒绝,却被另一个商业银行接受,这是因为两家商业银行的信用“门槛”高低不同。

因此,对处于“中间地带”客户,信用行为预测评分不能仅仅依靠消费者付费、公共记录、专业和雇佣记录等来简单地排除不良信用记录者;而更需要在此基础上,进一步详细地分析消费者的消费行为,包括所属的消费者群体、年龄段、消费规律、消费偏好、消费档次、付款习惯等等。一个科学的消费者个人信用评分数学模型要建立在对消费者群体的长期或阶段性跟踪、地域人口情况调查和大规模数理统计分析的基础之上。

五、如何开发信用评分

信用评分根据用途的不同,其开发的工作量也大为不同。信用局由于积累了大量的消费者数据,可以对每个消费者在局部的信用消费行为或者在某个时点上的信用消费行为进行描述和分析。同时,信用局的评分最终要面向全社会,其准确性和权威性非常令人关注。由此开发信用局评分的工作量可想而知。商业机构开发信用评分的工作量则完全不同。除了有数据量本身的原因,信用评分的用途、对准确度的要求以及在实践中不断调整的需要决定了商业机构信用评分开发的工作量相比之下较少。

信用评分模型开发过程可以用下图来表示:

圆角矩形: 模型开发步骤?

1、设定目标

开发任何模型都是为了解决某些特定的商务问题,所以建模过程的第一步,就是要清楚地知道建立模型的目标是什么,这通常要求对于商务问题有深刻的理解。在定义目标时,我们首先必须确定要衡量和预测什么。

2、定义目标群体

不同的商务问题所涉及的人群也会有所不同。因此有必要根据上一步所设定的商务目标,确定该商务目标所指向的目标群体。界定目标群体的方法有两种,即入组标准和排除标准。其中:

(1)入组标准是指满足该标准的人才进入模型,进而构成模型所研究的样本。入组标准适用于满足该标准的人数较不满足该标准的人数少,或用入组标准筛选样本较排除标准容易的情况。如:预测拖欠的模型要求具有12个月及以上信用历史的人才进入模型。

(2)排除标准是指满足该标准的人不能进入模型。从全体样本中滤除全部满足排除标准的人构成模型所研究的样本。排除标准适用于不满足该标准的人数较满足该标准的人数少,或用排除标准筛选样本较入组标准容易的情况。如:预测过去未发生过拖欠,但在未来可能发生拖欠的模型要求从全体客户中剔除过去曾经有过拖欠记录的人。

3、定义目标变量

定义目标变量就是要定义评分模型预测什么或者是描述什么。目标变量的定义,不仅要求对于商务问题有深刻的理解,对数据的效用有广泛的了解,更要求具备将商务目标转换成模型目标变量的能力。只有实现了这一步转换,才能充分利用模型的效力。

4、定义观察窗口和表现窗口

观察窗口是为预测消费者还款行为提供历史数据的时间段。表现窗口是需要对消费者的还款行为进行预测的区间。通常在观察窗口和表现窗口之间插入一个缓冲时间段,以防止观察窗口的残留效应和滞后效应影响到表现窗口。

5、定义目标群体的分类

对目标群体进行分类的目的,在于将目标群体分为各个子群后,使得不同子群之间尽量差异显著,而同一子群内部共性尽量强。好的分类有助于提高模型的预测效率。

分类基于以下诸点考虑:

(1)业务用途

(2)通过数据挖掘发现的数学结构

(3)经验、尝试和测试

分类的具体方法:

(1)多元分类法

(2)树状分类

(3)RFM法

6、选择数据

通常用于信用模型开发的数据类型有以下三种:个人基本资料、信贷行为资料、生活态度资料。

社会背景资料通常描述了个人和家庭的特征。典型的数据包括年龄、性别、婚姻状况、收入、房产状况、教育水平、职业类型、从业时间长短、每次职业的职位及持续时间。由于在中国消费信贷行业刚刚起步,尚未充分发展,在最初的这段时间,社会背景资料可能是最容易获得,并且是最重要的数据类型。

信贷行为资料是指消费者的信贷行为或结果。由于行为资料和消费者过去的信贷行为方式更加密切相关,并反映了消费者的道德观念,因此对于预测其未来的行为更有价值。

生活态度资料是表现个人观点、特有的生活方式、个人价值的资料。生活态度资料通常来源于市场调查或民意测验。也可以从杂志订阅或某些消费商品的购买情况推导出来。

下面的表格针对这三种资料从预测能力、预测的稳定性和获得成本方面进行了比较:


类型

预测能力

稳定性

获得成本

社会背景资料

低-中

信贷行为资料

生活态度资料

为开发信用模型选择数据时,原则上是要充分利用所有可获得的数据。从上面的表格可以清楚地看出,预测未来的与信贷相关的行为时,最重要的数据是过去的信贷行为数据。但是社会背景资料和生活态度资料也可以为没有信贷行为资料的消费者的购买行为提供一定的参考因素,因此可以增强模型的预测能力,特别是在开发响应模型和交叉销售模型的时候。根据模型开发的需要,使用的数据可以是内部的,也可以是外部的,或者是两者兼有。对于新客户获取模型,由于目标人群是潜在客户,只能依赖于外部数据源,除非这些消费者已经是其他产品的客户。而对于账户管理模型,对于预测消费者未来的行为,内部数据通常比外部数据可以提供更多的有效信息。

7、准备数据

模型开发的数据准备主要包括以下内容:

(1)数据清理。对数据的完整性、变量的缺失值及数据的异常值等进行相应的处理,将数据收集过程中不可避免出现的错误剔除,将真正有用的信息提取出来。在检查数据的完整性、变量缺失值弥补,以及消除异常值的过程中,有许多方法可以采用。

(2)数据类型转换。对原始的变量可以采用数学转换,如:对数、指数、平方、开平方、立方、开立方、倒数、正弦函数等。

(3)中间变量开发。由于原始的数据本身一般不能提供具备预测性的变量,就需要从原始的数据中生成有用的中间变量。这需要在消费信贷领域有丰富的经验,对中国的消费信贷有很深的理解,同时具有丰富的创造力。

8、建立模型

在此步骤中,将会采用数理统计技术和人工智能的技术(如:判别树、logistics回归分析、分类树和神经元等方法),以探究最好的数学公式,描述预测变量与目标变量之间的关系。

9、模型校验

采用不同的时间段和样本分布进行严格的校验。采用Lorenz曲线、K-S值、击中率、及其它一些指标和图形对模型的性能进行评估。比较模型的预测数据集在不同时间段和样本分布中的数据集,以确保模型的稳定性和适用性。该校验过程有可能需要重复第4~9步若干次,直至获得满意的结果,整个开发过程才算结束。

最后,模型被应用于商务决策后,需要定期(一般为每季度或半年)跟踪和监测,以确保模型的预测能力不会随时间和外部环境变化而恶化。通常模型开发出来之后,其预测能力会随着时间的流逝,预测能力下降。造成预测力下降的原因是多方面的,如:消费者的行为方式会逐渐改变、市场与宏观经济的变化、消费人群发生改变等。因此对模型性能进行跟踪和监测,并且将观测的数据集与原始模型的数据集进行比较是很重要的。这可以为是否调整最初的模型或者针对新的数据集重新开发新的模型等决策提供足够的判断依据。至于模型恶化到什么程度就需要重新开发是一个管理决策的问题,依赖于模型的商务应用、重新开发的资源需求及适用性。