央行“一次性征信修复”政策的出台,在惠及消费者的同时,也为风控建模领域带来了结构性挑战。当部分历史小额逾期记录在征信报告中不再展示时,建模人员应如何调整方法,以更准确地评估客户真实的违约风险?
风控建模新挑战:“征信数据观测机制被政策改写”
此次政策意味着关键风险信号的系统性缺失。拆解来看,挑战主要集中在三方面:
- 信息质量下降:小额历史逾期被“抹除”,导致征信特征出现非随机性的结构性缺失,直接影响模型在新客准入阶段的排序与区分能力。
- 客群分布漂移:同一信用评分段内的客户风险结构发生变化,原有策略的阈值与校准可能失效,边际客群的早期逾期风险可能率先抬头。
- 欺诈风险窗口扩大:“更干净”的征信报告可能降低黑灰产的试探成本,催生集中申请、身份冒用等行为,要求风控体系从事前准入向全链路治理升级。
问题的核心在于,风险并未消失,只是信号的“展示规则”被改写。这本质上是一个结构性观测偏差和非随机缺失问题,若简单将其视为普通的数据缺失进行处理,极易在边际准入客户上系统性低估风险。
建模目标升级:从依赖“历史逾期次数”到预测“真实PD”
政策实施前,模型高度依赖历史逾期次数、逾期时长等直接观测变量。政策实施后,这部分信号被遮蔽,建模目标必须升级为:在征信信息被修订的前提下,利用仍可见的信息来恢复或逼近被隐藏的真实风险。
一个关键优势在于,我们拥有政策实施前的完整历史数据。这使一个统计上棘手的不可识别问题,转化为一个可监督、可验证的模拟实验。我们可以在离线环境中,清晰对比同一批客户在“政策前完整世界”与“政策后可见世界”下的特征与表现差异。
构建“政策后可见征信”的模拟数据集
正确的方法不是简单地修改某个衍生特征,而应从征信的底层逻辑——账户级月度状态序列(N/1/2/3…)出发:
- 在月度序列中,识别符合修复条件的小额逾期月份。
- 将这些月份的状态从逾期(1,2,3…)改写为正常(N)。
- 基于同一套特征加工逻辑,分别生成
X_full(政策前完整特征)和 X_mask(政策后可见特征)。
由此,我们便得到了一个完全对齐、可用于对照实验的“双世界”数据集。
政策实施后,还有哪些信息可供利用?
一、 锚点变量(稳定可见)
- 单笔金额≥1万的历史逾期记录。
- 信用卡及贷款额度使用率。
- 征信查询次数(特别是近期硬查询)。
- 历史审批成功率。
- 最近一次成功融资的断档时长。
这些变量不受政策影响,是构建新模型的稳定骨架。
二、 小额逾期的代理变量(核心补救信号)
实践表明,小额历史逾期往往与特定行为模式强相关,例如“高额度使用率结合密集查询”、“审批成功率持续下降”以及“融资断档时间拉长”。若能结合覆盖率达80%左右、且与征信逾期相关性较高的外部数据(如第三方征信、多头借贷画像),则“是否发生过小额逾期”在很大程度上成为一个可被统计模型恢复的潜变量。
三、 压力变量(识别边际风险)
关注短期内发生的“查询爆发”、“使用率突增”等异常行为模式。这些动态变量对于捕捉政策后模型可能存在的系统性风险低估至关重要。
建模方法论:四类模型解决四个核心问题
为形成闭环、可解释的分析,建议构建并对比以下四类模型:
- M0(理论上限模型):使用政策前完整征信+外部数据训练,用于评估模型的性能上限(不可实际部署)。
- M1(政策后基线模型):仅使用模拟生成的
X_mask 训练,用于量化政策对模型性能的直接冲击。
- M2(主战模型):使用
X_mask + 外部数据训练,评估外部数据对风险信号的补偿能力。
- M3(增强模型):旨在显式恢复被遮蔽的风险信息。可通过两种路径实现:
- 路径A(显式恢复):在政策前数据上训练一个模型,预测“发生小额逾期的概率”,并将该预测值作为特征加入PD模型。
- 路径B(知识蒸馏):以M0为教师模型,以
X_mask+外部数据为学生模型,通过蒸馏技术将不可见风险信息迁移至可部署模型。
工程实践建议:依数据覆盖情况分模型部署
当外部数据覆盖率并非100%时,更稳健的工程实践是采用“两塔式”部署:
- Model-A:适用于命中外部数据的客户(如80%覆盖率人群)。
- Model-B:仅使用征信可见信息,适用于未命中外部数据的客户。
线上根据数据命中情况路由至相应模型,并分别进行校准,以降低不同人群间的系统性偏差。
评估重点:警惕对边际风险的低估
在此场景下,评估不应仅关注整体AUC,而需重点审视:
- 边际准入人群(评分中段)的坏账率是否被系统性低估。
- 在固定通过率下,早期逾期指标(如MOB6 DPD30+)是否显著抬升。
- 模型的预测概率校准曲线是否在政策后整体下移。
需特别关注 “无大额逾期、征信表面干净,但使用率高、查询多、断档长” 的客户,他们是政策后最易被误判为低风险的高危群体。
进行敏感性分析,对抗规则不确定性
必须承认,我们对政策执行细节(如精确金额阈值、结清时点)的认知可能存在误差。因此,建模结论需通过敏感性分析来验证稳健性,例如:
- 调整模拟中被修复记录的比例(±20%, ±40%)。
- 变化模拟修复的金额阈值(如8k, 10k, 12k)。
- 采用不同的结清口径(严格 vs 宽松)。
只有在这些扰动下,模型的排序能力和校准稳定性仍可接受,其结论才具备真正的决策价值。
总结
一次性征信修复并非风险的消失,而是风险表达方式的改变。面对这一挑战,稳健的风控建模策略应是:
- 坦然接受征信信息的制度性不完备。
- 充分利用政策前数据构建反事实实验环境。
- 借助外部数据与行为代理变量,努力恢复被遮蔽的风险信号。
- 在评估与部署中正视不确定性,实施针对性的监控与应对。
风控建模的核心任务始终未变:不是被动适应数据表象的变化,而是主动运用方法与技术,无限逼近客户的真实违约概率。这正是在“后征信修复时代”,数据风控专业价值的集中体现。
|