简介:通过上周的文章,大家应该对“数据挖掘”有了更清晰更全面的认识。具体有哪些业务,如何有效应用,快速实施一个项目应用实践?今天,我们将围绕一个实际的行业案例,按照“数据挖掘方法论”(详见历史推文《数据挖掘方法论》),详细分析如何通过数据挖掘技术和方法快速完成一个项目应用实践,获得业务应用价值。
数据挖掘方法为数据挖掘项目提供了一个完整、高效、可控的项目管理过程。CRISP-DM方法论将数据挖掘项目的生命周期分为六个阶段,包括业务理解、数据理解、数据准备、建模、评估和结果部署。
那么,在实际的数据挖掘工作中,如何实践这种挖掘方法论呢?接下来,我们将以“公募基金精准营销”为例,详细介绍数据挖掘项目[建模工具:TempoAI完成]的开发流程和步骤。
第一阶段:商业理解
业务背景:证券公司发行的公募基金产品,传统的营销方式是外出人员电话营销。传统电话营销存在两个主要问题:
工作量巨大,因为是用全量客户名单来打电话营销:开展10万人次外呼营销任务,要4个外呼人员1年的工作量;意向成功率过低,平均接通率54%,意向成功率18.09%左右。涉及部门:信息技术部、市场部、客服部(呼叫中心)
经营目标:提高意向成功率,优化出境营销策略,有效增加意向成功用户数量,提高投入产出比。
分析方案:
分类预测:构建潜在客户预测模型,预测大概率购买公募基金的潜在客户,为券商提供准确的营销客户名单。
分析结果验证:向呼出中心提供分析预测能够买到足够的人的名单,为呼出推荐公募基金产品,最后比较推荐名单与传统呼出的呼出效果,比较呼出成功率,从而判断分析结果是否显著。
阶段2:数据理解
收集的数据表信息包括:
借记卡用户基本信息表
信用卡用户基本信息表、用户身份识别码表
信用卡信息表、信用卡代码表和卡状态识别码表
信用卡交易流程信息表
用户业务信息表
公众信息表:商户代码MCC代码表、用户职业代码表等。
历史呼出反馈信息表
信用卡违约状态和未还款历史数据
设备信息
根据收集到的数据信息,进行数据理解:
用户特征探索:待营销用户分布格局、销售部门分布、性别分布、风险等级分布、业务开通。
第三阶段:数据准备
数据准备包括建模的数据选择、转换、清理、构建、集成和格式化。这里主要进行数据索引系统的设计,建模所需字段的生成,缺失值的处理。
临时数据处理:
阶段4:建模
基于风险等级、开户期限、年龄等用户基本信息、总资产、过去一年最大资产、过去六个月日均资产等资产信息,以及股票交易次数、过去两年购买墓地基金的最后天数、过去六个月金融持股比例等产品交易信息,构建用户公款潜在客户预测模型。基于该模型,可以预测大概率购买公募基金的潜在客户,为券商提供准确的营销客户名单。TempoAI内置的建模过程如下:
建模步骤描述:
(1)读取数据
拖到关系数据库的输入节点,选择数据源,选择购买公募基金用户的历史数据集,完成数据读取。
(2)设置角色
在设置角色节点,选择参与模型训练的变量,设置自变量(影响因素)和因变量(预测变量)。
自变量有:用户基本信息/资产信息、产品交易信息;
因变量为:flag(是否买公募基金,1表示买,0表示不够买)。
(3)数据分割
为了保证模型的可靠性,我们通常将原始数据集拆分成两三个数据集。在这里,我们将其分为两部分:一部分用于训练模型,另一部分用于测试模型的泛化能力(预测能力)。如下图所示,70%的数据作为训练集,30%作为测试集。
(4)梯度提升决策树
选择一种分类算法,建立分类模型。这里,我们选择梯度提升决策树算法,并将数据分割后的训练集接入算法。参数设置如下:
(5)训练集的分类和评价
算法的M口和D口连接到一个分类评估节点,评估训练集的预测效果。分类评估节点的参数设置如下:
(6)模型利用
算法输出的M端口连接模型使用节点,使用数据拆分后测试集的D端口连接模型。这里将使用梯度提升决策树生成的模型来预测测试数据集。
(7)测试集的分类和评估
该模型利用输出M口和D口连接一个分类评估节点,对测试集的预测效果进行评估。
(8)模型输出
将训练好的模型输出到模型库。
(9)连接END端点,完成流程构建,点击执行。
第五阶段:评估模型(评估)
评价模型是指在这个阶段,需要从技术层面判断模型的效果,从业务层面判断模型在实际业务环境中的实用性。
流程成功执行后,您可以在洞察页面上查看流程执行的结果:
这里主要看分类模型评价结果和分类模型预测结果。
点击“梯度提升决策树节点”查看分类模型内容及预测结果数据集:下图显示了模型的内容:决策树和级别描述信息
下图显示了预测结果数据集信息:可以从业务角度评估预测结果的合理性。
点击“分类评估节点”查看分类评估结果(包括训练集评估和测试集评估)训练集评价结果:包括模型精度、混淆矩阵、ROC/PR、Lift曲线、Gains曲线、基尼系数、K-S曲线。综合评价指标和曲线表明,该模型具有良好的评价效果。
测试集评估结果:如下所示
阶段6:结果部署
经过模型训练和模型测试,得到了理想的预测模型。模型的结果需要结合前面的阶段进行编写和总结,形成数据“分析报告”。如果涉及到工程应用,需要以不同的方式发布模型(调度、同步/异步服务API、实时服务等)。)进行其他业务系统的集成,形成最终的决策应用系统,需要“部署应用”。
分析报告
TempoAI洞察页面支持以Word格式直接导出完整的挖掘过程建模分析报告。如下图所示:
部署应用程序
构建预测流程,使用训练好的模型,然后发布预测流程,并将其部署为应用程序。
(1)建立预测流程
以待预测数据为数据源,读取并利用输出分类预测模型构建预测过程。如下图所示:
(2)发布预测流程
输入部署-发布以发布预测流程。
(3)施工进度安排
在部署-应用中,将发布的预测流程构建到计划任务中。该平台提供了一个任务调度器,可以配置调度任务,并在指定的日期范围内以一定的频率定期执行一个或多个进程,以完成预测的任务。如下图所示:
(4)建筑服务
在Deployment-Application中,用户可以将发布的流程构建成一个服务,根据流程数据源的不同,可以分为同步服务、异步服务和流服务。同步服务:支持第三方系统通过节俭/休息调用流程,实时返回预测结果。异步服务:支持第三方系统通过Rest调用流程,按照指定的频率定期执行,完成模型构建或数据预测,并将预测结果输入指定的数据库。流媒体服务:启动服务,当卡夫卡的队列中有消息时,就可以执行流程,完成流媒体数据的实时处理。
(5)服务调用
第三方系统可以调用相应的API,通过在第三方系统中输入参数来调用服务,并返回服务的执行状态。
呼叫模式:打开该服务的测试页面,如“下载样例代码”和“下载SDK”。将代码段复制粘贴到下载的样例代码文件中,可以通过运行代码来调用异步服务。调用接口可用于整合营销业务系统,形成最终决策应用系统,并向营销出库中心提供营销清单,以指导实际业务发展。
(6)部署结果的验证
根据预测分析可以购买的人员名单提供给出库中心,进行公募基金产品的出库推荐。最后,将推荐列表的呼出效果与传统呼出进行了比较。对比结果如下:推荐呼出后11天,拨打5877个电话(占传统呼出的36.01%),获得意向客户1664个,是传统呼出32天总体意向客户的1.08倍。综合考虑营销活动的成本和效果,综合效果提高3.14倍。
▼
单击此处了解有关企业数据挖掘成功指南的更多信息
▼
数据挖掘方法论——企业数据挖掘的成功之路(理论)
联系我们
希望对Tempo有更多了解,业务人员会解答您的疑问,并与您建立联系:
产品网站:www.asktempo.com
电子邮件:tempo@meritdata.com.cn
电话:400-608-2558
1.《数据挖掘项目 如何快速完成一个数据挖掘分析项目?——企业数据挖掘成功之道(方法篇)》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《数据挖掘项目 如何快速完成一个数据挖掘分析项目?——企业数据挖掘成功之道(方法篇)》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/caijing/1496471.html