首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
聊一聊信贷领域中的特征分箱

聊一聊信贷领域中的特征分箱

热心网友
62
转载
2025-12-15

等款分箱和等频分箱针对的是无监督样本,而卡方分箱针对的是有监督样本。其核心思想是利用卡方检验(Chi-Square Test)来衡量相邻两个区间的分布相似性,从最小的箱开始,不断合并卡方值最小的相邻箱,直到满足停止条件(如分箱数、卡方阈值)。

楔子

最近收到不少小伙伴的私信,在这里统一回复:谢谢大家关心,我还活着,只是不更新了而已。然后也有小伙伴从几个月前就一直问我啥时候更新,我的回答是没啥好更新的了,建议大家一定要拥抱 AI,生产力绝对会成倍提升。

但话都说到这儿了,不更新一篇也不合适。由于目前正在从事风控领域,就更新一篇风控相关的文章吧。

什么是特征分箱?

在信贷风控领域,特征分箱(Feature Binning)是一项至关重要且应用广泛的特征工程技术,它的作用是将连续型特征(如年龄、收入)或多取值的离散型特征(如职业)进行分组、装箱,将其转化为一系列离散的区间或类别。这一看似简单的操作,在构建稳定、可解释且高效的信用评分卡等风控模型中,扮演着定海神针般的关键角色。

而之所以要特征分箱,是因为在原始的连续型特征上直接建模,往往会遇到诸多挑战。而特征分箱通过将数据离散化,带来了多方面的显著优势。

提升模型的稳定性和鲁棒性:分箱操作能够有效降低特征中 "噪声" 的干扰。例如借款人年龄的微小变动(从 30 岁变为 31 岁)可能并不会对其信用风险产生实质性影响,分箱后,这些细微的波动被平滑处理,能有效防止模型因过度拟合个别数据点而变得不稳定,从而增强模型的泛化能力,使其在面对新数据时表现更稳健。增强模型的可解释性:将连续特征转化为有限的几个箱,极大地增强了业务人员对模型决策逻辑的理解。例如,相比于 "年龄每增加一岁,违约概率下降 0.5%" 这种复杂的线性关系,"年龄在 30 ~ 40岁之间的客群,其信用风险较低" 这样的结论显然更直观,更易于向决策层和业务部门解释和沟通。有效处理非线性关系:现实世界中,许多特征与信用风险之间并非是简单的线性关系。例如,年龄与违约率可能呈现 U 型关系,即年轻人和老年人的风险相对较高,中年人风险较低。分箱操作可以将这种非线性关系转化为分段的线性关系,使得逻辑回归等线性模型也能有效捕捉到这种复杂的模式。便捷地处理缺失值和异常值:在进行分箱时,可以将缺失值或异常值作为一个独立的 "箱" 来处理。这不仅避免了复杂的缺失值填充或异常值剔除操作,还能将 "缺失" 或 "异常" 本身作为一种信息纳入模型考量,有时这些特殊值本身就蕴含着特定的风险信息。为后续的 WOE 转换和评分卡创建奠定基础:在构建信用评分卡时,特征分箱是计算证据权重(Weight of Evidence,WOE)和信息价值(Information Value,IV)的前提。WOE 可以衡量每个分箱内好坏客户的比例差异,从而揭示该分箱对风险的预测能力。

常见的特征分箱方法

特征分箱的方法主要有以下几种:

等宽分箱(Equal Width Binning)等频分箱(Equal Frequency Binning)卡方分箱(Chi-Merge Binning)决策树分箱(Decision Tree Binning)

等宽分箱

核心思想:将特征的取值范围(最大值 ~ 最小值)等分成 N 个区间。

这种做法实现简单、快速,但缺点也很明显。如果特征值分布不均,容易产生某些箱内样本量过多,而另一些箱内样本量过少的情况,导致分箱结果无意义。

因此等宽分箱一般用于数据分布比较均匀的特征,或作为快速探索性分析的初步分箱方法。

等频分箱

核心思想:将特征按从小到大的顺序排列,然后切分成 N 个部分,使得每个部分(箱)内的样本数量大致相等。

这种做法保证了每个箱内都有足够的样本量,避免了等宽分箱的缺点。但它自身也有缺点,因为可能会将数值上非常接近的样本点强行切分到不同的箱中,对于某些业务场景,这种纯粹基于频率的切分可能破坏了原有的业务逻辑。

卡方分箱

等款分箱和等频分箱针对的是无监督样本,而卡方分箱针对的是有监督样本。其核心思想是利用卡方检验(Chi-Square Test)来衡量相邻两个区间的分布相似性,从最小的箱开始,不断合并卡方值最小的相邻箱,直到满足停止条件(如分箱数、卡方阈值)。

这种做法是一种基于目标变量(如是否违约)进行分箱的监督方法,能保证分箱后的每个箱都有显著不同的风险水平。至于缺点是计算相对复杂,对某些值域的样本量敏感。

卡方分箱在构建信用评分卡时非常常用,因为它能确保分箱结果与风险有很强的关联性。

决策树分箱

针对有监督样本,核心思想是利用单特征构建一个简单的决策树模型来拟合目标变量,树的每个叶子节点就代表一个分箱。

这种做法能自动找到最优的分割点,并且可以很好地处理非线性关系,分箱结果与目标变量强相关。但缺点是容易过拟合,需要通过剪枝或限制树的深度来控制,因此对于强线性关系的特征可能不是最优选择。

决策树分箱主要用于需要深度挖掘特征与风险之间非线性关系的场景。

卡方分箱

下面来单独说一下卡方分箱(Chi-Merge Binning)的原理,因为它不像等宽和等频那么简单。

卡方分箱的哲学可以用一句老话来概括:"物以类聚,人以群分",它的核心目标是将特征值相近且目标值(如好坏客户)分布也相似的区间进行合并。最终保留下来的每个箱子,其内部的客户风险水平应该尽可能一致,而不同箱子之间的风险水平则要有显著的差异。

它是个自底向上的过程,和之后要介绍的决策树正好相反,先让每个特征值都自成一派(一个箱),然后通过一个标准去衡量哪些"派别"最相似,并将它们合并,不断重复这个过程,直到"派别"数量减少到我们满意的程度。而衡量派别相似的标准,就是统计学中著名的卡方检验(Chi-Square Test)。

所以要理解卡方分箱,就必须先理解它的数学引擎 - 卡方独立性检验。这个检验的目的是判断两个分类变量是否相互独立,在当前的场景中,这两个变量是:

分箱变量:即样本属于哪个箱子,例如箱子 A 还是箱子 B。目标变量:即客户是好客户还是坏客户。

卡方检验会提出一个零假设(H0):分箱变量与目标变量相互独立。换句话说,零假设认为 "一个客户在箱子 A 还是箱子 B" 与 "他是一个好客户还是坏客户" 这两件事没有关系。如果这个假设成立,那么箱子 A 和箱子 B 中好坏客户的比例应该是没有显著差异的。

卡方检验会计算出一个卡方统计量(χ2 值),这个值衡量了实际观测值与期望值之间的差距。

图片

O(Observed):观测频数,即我们实际统计到的、落在每个箱子里的样本数量。E(Expected):期望频数,即如果零假设成立,我们理论上期望的样本数量。

如果 χ2 值很小,说明观测值(O)与期望值(E)非常接近,这意味着数据非常符合 "两个变量相互独立" 的零假设,因此我们没有理由拒绝零假设。在分箱场景下,这代表着这两个相邻的箱子,其好坏客户的分布非常相似,它们是合并的首要候选者。

如果 χ2 值很大:说明观测值(O)与期望值(E)差距巨大,这强烈地表明 "两个变量相互独立" 的假设是错误的,因此我们可以拒绝零假设。在分箱场景下,这代表着这两个相邻的箱子,其好坏客户的分布有显著差异,它们应该被分开,不能合并。

下面通过一个例子,来实际感受一下运算过程。

假设有以下数据,并且已经初始化,每个年龄段是一个独立的箱。我们想看看相邻的 20 ~ 30 岁和 31 ~ 40 岁这两个箱是否应该合并。

来源:https://www.51cto.com/article/824506.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

阿里钉钉文档全功能解析在线协同办公套件使用指南
AI
阿里钉钉文档全功能解析在线协同办公套件使用指南

钉钉文档官网 在探讨企业级协同办公解决方案时,钉钉文档无疑是备受瞩目的核心工具之一。作为阿里巴巴钉钉官方推出的旗舰级应用套件,它深度融合了在线文档编辑、智能表格、思维导图等多种高效创作工具。其核心优势在于与钉钉平台生态的无缝衔接,能够直接同步企业内部组织架构与通讯录,实现团队成员间的即时协作与信息流

热心网友
05.15
商汤小浣熊智能助手基于自研大语言模型
AI
商汤小浣熊智能助手基于自研大语言模型

在数字化转型浪潮中,高效、易用的数据分析工具已成为企业提升决策效率的关键。商汤科技推出的“办公小浣熊”智能助手,正是基于自研大语言模型打造的一款创新产品,旨在彻底降低数据分析的技术门槛。用户无需掌握编程知识或复杂操作,即可通过自然对话完成从数据查询、处理到可视化洞察的全流程,让数据价值触手可及。 办

热心网友
05.15
MiniMax新一代智能模型矩阵全面解析与应用指南
AI
MiniMax新一代智能模型矩阵全面解析与应用指南

在人工智能技术快速发展的今天,MiniMax作为一家专注于全栈自研的AI公司,正以其独特的技术路径和前瞻性的布局,在业界脱颖而出。公司致力于构建覆盖文本、图像、语音和视频的新一代多模态智能模型矩阵,这不仅体现了对核心底层技术自主权的深度掌控,也展现了对未来人机交互与内容生成形态的前瞻思考。 那么,M

热心网友
05.15
Apollo Credit Fund价格预测逻辑解析 ACRED未来走势与投资前景
web3.0
Apollo Credit Fund价格预测逻辑解析 ACRED未来走势与投资前景

ApolloCreditFund(ACRED)作为连接传统信贷与DeFi的桥梁,其价格受市场情绪、协议基本面及宏观环境影响。其价值逻辑根植于现实世界资产(RWA)的收益捕获与链上流动性释放。短期价格波动难以预测,但长期发展取决于信贷资产质量、协议安全性和市场采用度。投资者需关注其底层资产表现、代币经济模型及整个RWA赛道的发展趋势。

热心网友
05.15
智能客服机器人解决方案:AI客服系统提升企业服务效率
AI
智能客服机器人解决方案:AI客服系统提升企业服务效率

在数字化转型浪潮中,一套能够深度适配业务、彰显品牌特色的智能客服系统,已成为企业提升服务效率与用户体验的关键工具。然而,市场上许多解决方案往往模式固化,难以满足个性化需求。如何让AI客服不仅具备基础的自动化应答能力,更能承载独特的品牌文化与服务哲学?其核心在于系统是否支持深度的自定义与持续的AI训练

热心网友
05.15