A386-基于xgboost的欠采样和Bagging集成实现电信用户流失预测

导出时间：2025/12/18 15:03:47

主要学习机器学习特征工程和模型涨点技巧：

项目概览

业务目标：识别未来一段时间内可能流失（Churn=“Yes”）的移动通信客户，用于驱动挽留、定价与关怀策略（如差异化优惠、专席外呼、账单优化建议）。
学习任务：二分类（流失/未流失）。
总体方法：基于梯度提升树（XGBoost）为基模，并结合欠采样+装袋（Bagging）集成提升鲁棒性；以F1 为核心目标，在交叉验证中同时选择阈值与模型配置，兼顾查全率与查准率的平衡。

以下为用户提供的 CSV 样例字段（节选），括号内为建议的数据类型/角色：

标识类
- CustomerID（字符串，记录标识；训练时不参与建模）
目标变量
- Churn（二分类标签：Yes/No）
连续/数值特征
- MonthlyRevenue、MonthlyMinutes、TotalRecurringCharge、OverageMinutes、PercChangeMinutes、PercChangeRevenues、DroppedCalls、BlockedCalls、UnansweredCalls、CustomerCareCalls、ThreewayCalls、ReceivedCalls、OutboundCalls、InboundCalls、PeakCallsInOut、OffPeakCallsInOut、DroppedBlockedCalls、CallForwardingCalls、CallWaitingCalls、MonthsInService、UniqueSubs、ActiveSubs、Handsets、HandsetModels、CurrentEquipmentDays、AgeHH1、AgeHH2、ChildrenInHH、RetentionCalls、RetentionOffersAccepted、ReferralsMadeBySubscriber、AdjustmentsToCreditRating、HandsetPrice
二元（Yes/No）特征
- HandsetRefurbished、HandsetWebCapable、TruckOwner、RVOwner、Homeownership、BuysViaMailOrder、RespondsToMailOffers、OptOutMailings、NonUSTravel、OwnsComputer、HasCreditCard、NewCellphoneUser、NotNewCellphoneUser、OwnsMotorcycle、MadeCallToRetentionTeam 等
枚举/分类型特征
- ServiceArea、IncomeGroup、CreditRating（有序）、PrizmCode、Occupation、MaritalStatus
注意：CreditRating 为有序类别，HandsetPrice 虽以字符串呈现，但本项目中按数值处理。

对剩余的对象型离散特征，执行频率/目标统计编码：以训练集各类别对应的流失率（Yes 比例）替换原始类别；在验证与推理集上使用训练集统计并以全局流失率回填未知类别。该做法在树模型中常见，能以低维方式注入目标相关性并稳定泛化。

在原始计费与通话行为基础上构造以下业务比率与聚合特征（训练与推理一致）：

上述派生在缺失时使用中位数回填所需分量。

**XGBoost（二元对数损失）**作为基模型，已在非线性、混合型特征（数值+编码后的类别）情境下成熟可靠；模型参数包含树深、学习率、子样本与列采样比例、正则项与最大步长等通用超参。

采用分层 5 折交叉验证，对以下网格进行搜索：
- 欠采样比（负:正）、集成模型数、树深、学习率、列采样比例等；
在每组配置上，对验证折的概率输出进行聚合，并在候选阈值集合（覆盖概率分布的若干分位点）上计算逐折 F1 的均值，从而同时选出最优模型配置与分类阈值；
最终记录在最佳阈值处的F1、Precision、Recall、Accuracy 均值作为验证报告。

加载数据（训练/泛化）
准备数据（移除标识与目标、二元映射、有序/数值转换、目标频率编码、派生特征、缺失值填补）
交叉验证与选择：锁定最佳欠采样比、集成规模、XGBoost 参数与阈值（以 F1 最大化为准）
全量重训：在全训练集上，以最佳配置与阈值训练装袋集成
生成预测：对泛化集输出二元标签（基于最佳阈值），并导出 CustomerID + Churn 的结果文件 prediction_bagging.csv。