• 易迪拓培训,专注于微波、射频、天线设计工程师的培养
首页 > 电子设计 > 电源技术 > 电源技术 > 基于特征选择改进LR-Bagging算法的电力欠费风险居民客户预测

基于特征选择改进LR-Bagging算法的电力欠费风险居民客户预测

录入:edatop.com    点击:

作者 吴漾 朱州 贵州电网有限责任公司信息中心(贵州 贵阳 550003)

吴漾(1984-),男,硕士,工程师,研究方向:电网信息化数据管理与数据分析管理;朱州,男,高级工程师,博士,研究方向:电网信息化建设与数据分析管理。

摘要:本文从电力欠费风险预测的角度出发,提出了一种基于特征选择改进的LR-Bagging(即以逻辑回归为基分类器的Bagging集成学习)算法,其精髓在于每一个训练的LR基分类器的记录和字段均通过随机抽样得到。且算法的终止迭代准则由AUC统计量的变化率决定。该改进算法充分考虑了LR的强泛化能力、Bagging的高精确度,以及特征选择带来的LR基分类器的多样性、弱化的多重共线性与“过拟合”度,效果优于单一LR模型。且最终的实验表明,该改进算法得到的电力欠费居民客户风险预测模型的准确性与有效性得到提升。

引言

我国电力体制的深化改革为电力行业引入了市场机制[1],在有效实现电力资源优化配置,提高电力资源生产和传输效率的同时,也带给电力企业更大的市场风险,风险的切实防范和规避对电力企业的重要性不言而喻。由于客户欠费而产生的电费回收风险一直是电力营销中存在的重大风险之一。

首先,国内学术界专业人士对于该问题的研究起步较晚[3],主要集中于对电费回收风险的现状、影响因素、评价、有效性措施等内容的理论研究,缺乏以现实数据为基础量化模型支撑[3-4];虽然也有许多文献通过对电力客户信用等级建模对其欠费风险进行预测[5],但模型不够直接;随着大数据挖掘行业的蓬勃发展,近几年出现了基于逻辑回归、决策树的数据挖掘算法的电力客户欠费违约概率预测模型[6-7],但前者选取特征均为二分类变量,适用性较低;后者选择的模型变量虽较为多样性,但模型的预测结果差强人意。而本文将借助电力客户属性数据和行为特征数据,尽可能挖掘每一个变量与欠费风险的相关信息,建立一个更为准确、使用范围更广的客户欠费风险预测模型。

其次,如今关于LR的文章或者关于Bagging集成学习的文章有很多,但是基于LR分类器的Bagging算法的应用相对较少,通过特征选择对基于LR分类器Bagging算法做出改进的相关文献基本没有。简单来说,本文算法为多个不同的LR分类器的集合,其核心在于每一个训练的LR基分类器的样本和特征均通过bootstrap技术得到。充分考虑了LR的强泛化能力、Bagging的高精确度,以及特征选择带来的LR基分类器的多样性,使得该算法在精度、实用性上优于单一算法,后文的应用恰好证明了这一点。鉴于该算法的这一优越性,可尝试将其应用于其他领域的分类挖掘问题。

本研究的意义体现在两个方面:一是对于电力欠费客户风险预测这一模块的进一步研究;二是基于特征选择的以LR为基分类器的Bagging算法的改进的借鉴和推广价值。

1 基于LR分类器的Bagging算法的改进

1.1 LR模型及其基本理论

逻辑回归(LogisticRegression,LR)模型是一种分类评定模型,是离散选择法模型之一。它主要是用于对受多因素影响的定性变量的概率预测,并根据预测的概率对目标变量进行分类。逻辑回归可分为二项逻辑回归和多项逻辑回归,类别的差异取决于目标变量类别个数的多少。目前,LR模型已经广泛应用于社会学、生物统计学、临床、数量心理学、市场营销等统计实证分析中,且以目标变量为二分类变量为主。

1.1.1 Logistic函数

假设因变量只有1-0(例如“是”和“否”,“发生”和“不发生”)两种取值,记为1和0。假设在p个独立自变量作用下,y取1的概率是,取0的概率是1-P,则取1和取0的概率之比为,称为事件的优势比(odds),表示事件发生的概率相对于不发生的概率的强度。对odds取自然对数可得Logistic函数为:

(1)

Logistic函数曲线如图1所示。

1.1.2 LR模型

LR模型可以探究由于自变量的变化所能导致的因变量决策(选择)的变化,因变量决策(选择)的变化意味着Logistic函数的变化。LR的基本形式为:

因此有:

1.1.4 LR模型的优势与不足

LR模型具有很强的实用性,对比其他的分类判别模型,LR具有以下两点优势:

(1)泛化能力较好,精度较高

所谓泛化能力,是指机器学习算法对新鲜样本的适应能力。由于LR模型的自变量多为取值范围不设限的连续变量,该模型不仅可以在样本内进行预测,还可以对样本外的数据进行预测,泛化能力较好,而且精度较高。

(2)能精确控制阈值,调整分类类别

LR模型的求解结果是一个介于0和1间的概率值。这使分类结果的多样性成为了可能。正常情况下,每一次阈值的调整都会产生不同的分类结果,便于对预测结果进行比较和检验,克服了其他分类算法分类数量无法改变的局限。

当然,LR作为回归模型的特殊形式,也需要满足经典回归模型的基本假设,违背这些假设显然会影响模型的分类效果,多重共线问题就是目前面临较多的问题。同时,逻辑回归的性能受特征空间的影响很大,也不能很好地处理大量多类特征或变量,这便是LR分类器的缺点所在。

2 Bagging集成学习

2.1 集成学习

集成学习[8]是一种机器学习范式,它的基本思想是把多个学习器(通常是同质的)集成起来,使用多个模型(解决方案)来解决同一个问题。因其个体学习器的高精度和个误差均分布于不同的输入空间,从而能达到显著地提高学习系统的泛化能力的效果。

Breiman同时指出,要使得Bagging有效,基本学习器的学习算法必须是不稳定的,也就是说对训练数据敏感,且基本分类器的学习算法对训练数据越敏感,Bagging的效果越好。另外由于Bagging算法本身的特点,使得Bagging算法非常适合用来并行训练多个基本分类器,这也是Bagging算法的一大优势[8]

2.3 本文算法描述

前文指出,一方面,学习器的稳定性,即对训练数据的敏感性,很大程度上影响Bagging算法的效果,其中原因在于差异性小的数据对稳定性较强的学习器无法很好产生作用,这将影响到基学习模型的多样性,Bagging算法提高精确度的能力也将大大减弱,而LR模型的不稳定性能不突出;另一方面,LR对大特征空间的解释效果并不理想,且越多的变量特征也将加大变量间多重共线的可能性,LR模型的显著性无法得到保障。

由于上述两点原因,本文提出了一种基于特征选择的LR-Bagging(基分类器为LR的Bagging算法)的改进算法。该算法的精髓在于对每一个LR进行训练的特征变量需要经过有放回的随机抽样产生。如此改进的目的在于通过减少或改变变量提高基LR分类器的多样性,减少变量间的多重共线性与过拟合问题,同时还能较好保留LR与Bagging集成学习的优点。

AUC(Area Under Curve)被定义为ROC曲线下的面积,它的取值范围介于0.5到1之间,是比较分类器间分类效果优劣的评价标准。AUC越大,我们认为模型的分类效果越好。一般情况下,,随着循环次数的增加,模型提取的数据信息量也会不断增加,最后达到峰值,所以我们通常可以认为组合模型的效果趋于先不断加强后保持稳定的过程。因此,我们把迭代的停止条件的设置为是合理的。


[p]

3 应用与结果

本应用以“电费回收风险”为主题,要求根据2015年8月至2015年9月贵州贵阳电网欠费居民样本客户的行为分析和特征拟合,以及与全量居民客户的特征匹配,采用分群管理理论和数据挖掘算法建立数学模型,计算出全量居民客户的电费回收风险程度,自动分析识别出欠费高风险居民客户群。

本部分主要通过改进的LR-Bagging算法与单一逐步逻辑回归算法在电力欠费高风险居民客户的预测的应用效果的比较来展开。借助的分析工具为R语言。

3.1 基于本文改进算法的模型流程图

针对本应用的实际情况,结合改进算法的数据需求,整体实际操作过程的流程可以表述如图3。

3.2 模型与结果

综上所述,有如下处理过程:

3.2.1 定义风险客户样本

业务经验告诉我们,并非所有的欠费居民客户都是存在欠费风险的客户,因为我们并不排除多数欠费居民客户因为忘记缴费日期而出现欠费的可能性。一般情况下,存在欠费风险的居民客户占全量客户的比例不超过25%。因此,考虑通过所有欠费居民客户在2015年8月至9月的累计欠费金额的四分之三分位点作为定义欠费风险居民客户的标准。

图4为全部居民客户在2015年8月至9月累计欠费金额的概率直方图,可以发现,大约75%的居民客户的累计欠费金额在140元以下。经过与电网专家的商讨,认为可选定该数据为是否为欠费风险客户的阈值。

综上所述,我们定义“坏客户”样本,即欠费风险客户样本的标准为:在2015年8月至9月期内,累计欠费金额超过140元的居民客户。

3.2.2 变量的构造与筛选

原始居民客户数据包含包括年龄、用电性质、合同容量等基本属性以及总用电量、电费实际金额等历史行为属性在内的25个字段,显然,变量个数过多,需要进行筛选,具体操作为:

对于连续型变量,计算其与因变量“是否为坏客户”的spearman相关系数,大于0.5的情况下保留;对于离散型变量,对其与因变量做卡方检验,保留在0.05显著性水平下的显著变量,最终确定的用于建模的变量为:平均用电量、平均电费、平均缴费时长、信誉分数、用电类别、行业代码、合同容量、城乡标志,对应地设置为X1~X8

同时,考虑到离散变量对于逻辑回归的效果影响,基于目标变量对WEO其做编码处理。WEO叫做证据权重(Weight of Evidence),表示的其实是自变量取某个值的时候对欠费比例的一种影响。若WEOi表示离散变量的第i个类值的证据权重,则有:

(8)

其中,Pbi和Pgi分别表示离散变量取第i个类值时,欠费风险客户占比和非欠费风险客户的占比。

最后,随机抽取已完成前述处理的居民客户样本的10%,共条记录作为构建模型的初始数据 。

3.3 建模

3.3.1 本文改进算法模型

基于特征选择改进的LR-Bagging组合模型虽然增加了分类结果的精度,但特征选择的随机性也不可避免的增加了模型的偶然性。显然,每一次特征变量个数发生改变。在其他条件不变的状态下,随着循环次数的增加,至于特征变量的个数对模型结果的影响规律,我们甚至无法预知。对此,本处采用了实证比较的方法来初步确定上述两影响因素的最优数值,即通过不断改变特征变量探究模型效果的变化。模型的效果的好坏仍采用采用AUC值来衡量。即令特征变量个数k满足:,同时,基于经验,我们设置训练集与测试集的样本比例为7:3,ε的值为0.05,则利用本文算法可以得到不同的组合模型。

观察图5不难发现,在其他条件不变的情况下,随着特征变量个数的增加,AUC总体呈现先增长后下降的的变化趋势,且当k取值为4时,AUC最大,因此大致可以认为4为其最佳特征个数,选取 时的组合模型为本文改进算法得到的最终模型。

3.3.2 单一逐步逻辑回归模型

对初始数据S通过逐步筛选建立逻辑回归模型,结果为:

各系数均通过了0.05显著性水平下的公式(6)的正态分布检验。因此,该模型是显著有效的。

4 模型评估

分别采用本文基于特征选择改进的LR-Bagging算法的组合模型与单一LR模型对全量居民客户的风险概率预测,并借助预测结果对两者的准确性与有效性做出评估。

4.1 准确性—ROC曲线

图6表明,基于本文算法模型的预测电力欠费风险客户的ROC曲线一直位于单一LR模型预测结果的ROC曲线上方,因此,可以认为,前者的准确性优于后者。

4.2 有效性—提升度

提升度(Lift)是评估一个预测模型是否有效的一个度量。这个比值由运用和不运用这个模型所得来的结果计算而来。一般来说提升度越大,效果明显。

图7表明,基于本文算法模型的预测电力欠费风险客户的提升度曲线一直位于单一LR模型预测结果的提升度曲线上方,因此,可以认为,前者的提升度较大,有效性优于后者。

5 结论

本文从电力欠费风险预测的角度出发,提出了一种基于特征选择改进的LR-Bagging(即以逻辑回归为基分类器的Bagging集成学习)算法,其精髓在于每一个训练的LR基分类器的记录和字段均通过随机抽样得到。且算法的终止迭代准则由AUC统计量的变化率决定。该改进算法充分考虑了LR的强泛化能力、bagging的高精确度以及特征选择带来的LR基分类器的多样性、弱化的多重共线性与“过拟合”度,效果优于单一LR模型。且最终的实验表明,该改进算法得到的电力欠费居民客户风险预测模型的准确定性与有效性得到提升。而下一步,可针对改进算法中最优变量个数的确定问题展开探讨,或考虑将其推广至其他应用领域。

参考文献:

[1]顾曦华.济南供电公司电力大客户欠费风险预警研究[D].保定:华北电力大学,2007.

[2]田慧欣,王安娜.基于增量学习思想的改进AdaBoost建模方法[J].控制与决策,2012,27(9):1433-1436.

[3]李亚林,王茜.对电力营销中全过程电费风险管理的探究[J].电力技术,2016,1(148):165-165.

[4]张宇献,李松,董晓.基于特征聚类数据划分的多神经网络模型[J].信息与控制,2013,42(6):693-699.

[5]朱志华.电力客户信用评价与欠费风险预警系统的总体设计[J].现代计算机(专业版).2009(01):188-190.

[6]周晖等.基于Logistic回归模型的电力客户欠费违约概率的预测[J]. 电网技术,2007,31(17):85-88.

[7]黄文思.基于决策树算法的电力客户欠费风险预测[J].电力信息与通信技术,2016,14(3):20-22.

[8]马新宇.基于Bagging集成学习的水华预测方法研究[J].计算机应用化学,2014,31(2):140-144.

[9]Ma Ranran. Research of Ensemble Learning Algorithm. Shandong:Shandong Univerity of Science and Technology,2010.

[10]朱绍文,胡宏银,王泉德,等.决策树采掘技术及发展趋势[J].计算机工程,2000,26(10):1-3.

[11]李海波,柴天佑,岳恒.浮选工艺指标KPCA-ELM软测量模型及应用[J].化工学报,2012,63(9):2892-2898.

[12]马冉冉.集成学习算法研究[D].济南:山东科技大学,2010.

[13]施彦.物流中心选址的神经网络集成模型研究[J].计算机工程,2009,45(16):211-214.

[14]刘淑莲,王真,赵建卫.基于因子分析的上市公司信用评级应用研究[J].财经问题研究,2008,15(7):53-60.

[15]张克盡,陆开宏,朱津永,等.基于神经网络的藻类水华预测模型研究[J].中国环境监测,2012,28(3):53-57.


本文来源于《电子产品世界》2017年第4期第70页,欢迎您写论文时引用,并注明出处。

射频工程师养成培训教程套装,助您快速成为一名优秀射频工程师...

天线设计工程师培训课程套装,资深专家授课,让天线设计不再难...

上一篇:用集成式8开关无闪烁驱动器控制矩阵式LED前灯中的单个LED(下)
下一篇:用集成式8开关无闪烁驱动器控制矩阵式LED前灯中的单个LED(上)

射频和天线工程师培训课程详情>>

  网站地图