当前位置:首页 > 理财有道

数据挖掘项目 如何快速完成一个数据挖掘分析项目?——企业数据挖掘成功之道(方法篇)

简介:通过上周的文章,大家应该对“数据挖掘”有了更清晰更全面的认识。具体有哪些业务,如何有效应用,快速实施一个项目应用实践?今天,我们将围绕一个实际的行业案例,按照“数据挖掘方法论”(详见历史推文《数据挖掘方法论》),详细分析如何通过数据挖掘技术和方法快速完成一个项目应用实践,获得业务应用价值。

数据挖掘方法为数据挖掘项目提供了一个完整、高效、可控的项目管理过程。CRISP-DM方法论将数据挖掘项目的生命周期分为六个阶段,包括业务理解、数据理解、数据准备、建模、评估和结果部署。

那么,在实际的数据挖掘工作中,如何实践这种挖掘方法论呢?接下来,我们将以“公募基金精准营销”为例,详细介绍数据挖掘项目[建模工具:TempoAI完成]的开发流程和步骤。

第一阶段:商业理解

业务背景:证券公司发行的公募基金产品,传统的营销方式是外出人员电话营销。传统电话营销存在两个主要问题:

工作量巨大,因为是用全量客户名单来打电话营销:开展10万人次外呼营销任务,要4个外呼人员1年的工作量;意向成功率过低,平均接通率54%,意向成功率18.09%左右。

涉及部门:信息技术部、市场部、客服部(呼叫中心)

经营目标:提高意向成功率,优化出境营销策略,有效增加意向成功用户数量,提高投入产出比。

分析方案:

分类预测:构建潜在客户预测模型,预测大概率购买公募基金的潜在客户,为券商提供准确的营销客户名单。

分析结果验证:向呼出中心提供分析预测能够买到足够的人的名单,为呼出推荐公募基金产品,最后比较推荐名单与传统呼出的呼出效果,比较呼出成功率,从而判断分析结果是否显著。

阶段2:数据理解

收集的数据表信息包括:

借记卡用户基本信息表

信用卡用户基本信息表、用户身份识别码表

信用卡信息表、信用卡代码表和卡状态识别码表

信用卡交易流程信息表

用户业务信息表

公众信息表:商户代码MCC代码表、用户职业代码表等。

历史呼出反馈信息表

信用卡违约状态和未还款历史数据

设备信息

根据收集到的数据信息,进行数据理解:

用户特征探索:待营销用户分布格局、销售部门分布、性别分布、风险等级分布、业务开通。

第三阶段:数据准备

数据准备包括建模的数据选择、转换、清理、构建、集成和格式化。这里主要进行数据索引系统的设计,建模所需字段的生成,缺失值的处理。

临时数据处理:

阶段4:建模

基于风险等级、开户期限、年龄等用户基本信息、总资产、过去一年最大资产、过去六个月日均资产等资产信息,以及股票交易次数、过去两年购买墓地基金的最后天数、过去六个月金融持股比例等产品交易信息,构建用户公款潜在客户预测模型。基于该模型,可以预测大概率购买公募基金的潜在客户,为券商提供准确的营销客户名单。TempoAI内置的建模过程如下:

建模步骤描述:

(1)读取数据

拖到关系数据库的输入节点,选择数据源,选择购买公募基金用户的历史数据集,完成数据读取。

(2)设置角色

在设置角色节点,选择参与模型训练的变量,设置自变量(影响因素)和因变量(预测变量)。

自变量有:用户基本信息/资产信息、产品交易信息;

因变量为:flag(是否买公募基金,1表示买,0表示不够买)。

(3)数据分割

为了保证模型的可靠性,我们通常将原始数据集拆分成两三个数据集。在这里,我们将其分为两部分:一部分用于训练模型,另一部分用于测试模型的泛化能力(预测能力)。如下图所示,70%的数据作为训练集,30%作为测试集。

(4)梯度提升决策树

选择一种分类算法,建立分类模型。这里,我们选择梯度提升决策树算法,并将数据分割后的训练集接入算法。参数设置如下:

(5)训练集的分类和评价

算法的M口和D口连接到一个分类评估节点,评估训练集的预测效果。分类评估节点的参数设置如下:

(6)模型利用

算法输出的M端口连接模型使用节点,使用数据拆分后测试集的D端口连接模型。这里将使用梯度提升决策树生成的模型来预测测试数据集。

(7)测试集的分类和评估

该模型利用输出M口和D口连接一个分类评估节点,对测试集的预测效果进行评估。

(8)模型输出

将训练好的模型输出到模型库。

(9)连接END端点,完成流程构建,点击执行。

第五阶段:评估模型(评估)

评价模型是指在这个阶段,需要从技术层面判断模型的效果,从业务层面判断模型在实际业务环境中的实用性。

流程成功执行后,您可以在洞察页面上查看流程执行的结果:

这里主要看分类模型评价结果和分类模型预测结果。

点击“梯度提升决策树节点”查看分类模型内容及预测结果数据集:

下图显示了模型的内容:决策树和级别描述信息

下图显示了预测结果数据集信息:可以从业务角度评估预测结果的合理性。

点击“分类评估节点”查看分类评估结果(包括训练集评估和测试集评估)

训练集评价结果:包括模型精度、混淆矩阵、ROC/PR、Lift曲线、Gains曲线、基尼系数、K-S曲线。综合评价指标和曲线表明,该模型具有良好的评价效果。

测试集评估结果:如下所示

阶段6:结果部署

经过模型训练和模型测试,得到了理想的预测模型。模型的结果需要结合前面的阶段进行编写和总结,形成数据“分析报告”。如果涉及到工程应用,需要以不同的方式发布模型(调度、同步/异步服务API、实时服务等)。)进行其他业务系统的集成,形成最终的决策应用系统,需要“部署应用”。

分析报告

TempoAI洞察页面支持以Word格式直接导出完整的挖掘过程建模分析报告。如下图所示:

部署应用程序

构建预测流程,使用训练好的模型,然后发布预测流程,并将其部署为应用程序。

(1)建立预测流程

以待预测数据为数据源,读取并利用输出分类预测模型构建预测过程。如下图所示:

(2)发布预测流程

输入部署-发布以发布预测流程。

(3)施工进度安排

在部署-应用中,将发布的预测流程构建到计划任务中。该平台提供了一个任务调度器,可以配置调度任务,并在指定的日期范围内以一定的频率定期执行一个或多个进程,以完成预测的任务。如下图所示:

(4)建筑服务

在Deployment-Application中,用户可以将发布的流程构建成一个服务,根据流程数据源的不同,可以分为同步服务、异步服务和流服务。同步服务:支持第三方系统通过节俭/休息调用流程,实时返回预测结果。异步服务:支持第三方系统通过Rest调用流程,按照指定的频率定期执行,完成模型构建或数据预测,并将预测结果输入指定的数据库。流媒体服务:启动服务,当卡夫卡的队列中有消息时,就可以执行流程,完成流媒体数据的实时处理。

(5)服务调用

第三方系统可以调用相应的API,通过在第三方系统中输入参数来调用服务,并返回服务的执行状态。

呼叫模式:打开该服务的测试页面,如“下载样例代码”和“下载SDK”。将代码段复制粘贴到下载的样例代码文件中,可以通过运行代码来调用异步服务。调用接口可用于整合营销业务系统,形成最终决策应用系统,并向营销出库中心提供营销清单,以指导实际业务发展。

(6)部署结果的验证

根据预测分析可以购买的人员名单提供给出库中心,进行公募基金产品的出库推荐。最后,将推荐列表的呼出效果与传统呼出进行了比较。对比结果如下:推荐呼出后11天,拨打5877个电话(占传统呼出的36.01%),获得意向客户1664个,是传统呼出32天总体意向客户的1.08倍。综合考虑营销活动的成本和效果,综合效果提高3.14倍。

单击此处了解有关企业数据挖掘成功指南的更多信息

数据挖掘方法论——企业数据挖掘的成功之路(理论)

联系我们

希望对Tempo有更多了解,业务人员会解答您的疑问,并与您建立联系:

产品网站:www.asktempo.com

电子邮件:tempo@meritdata.com.cn

电话:400-608-2558

1.《数据挖掘项目 如何快速完成一个数据挖掘分析项目?——企业数据挖掘成功之道(方法篇)》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《数据挖掘项目 如何快速完成一个数据挖掘分析项目?——企业数据挖掘成功之道(方法篇)》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/caijing/1496471.html

上一篇

吻戏多的电影 《天堂电影院》影史上最多吻戏 向经典致敬

下一篇

发条橙子 《发条橙》:以灭绝人性的方式防止犯罪

英国公投结果 英国公投结果确定脱欧,对中国的影响是什么?

英国公投结果 英国公投结果确定脱欧,对中国的影响是什么?

24日下午,英国宣布英国退出欧盟公投最终结果:英国退出欧盟。这次公投不仅会决定整个欧盟的命运,还会给中英乃至中欧关系带来诸多影响。 在英国留学一年能省几万块钱 如果你离开欧盟,英镑汇率会大幅下跌,这对在英国留学的人来说...

小型衣服烘干机 业主买不起2000的烘干机,买200的“烘干神器”代替,结果家没了

性价比最好的油烟机 省消协发布吸油烟机比较试验结果 哪一款性价比最高

新华报网讯省消费者协会3日发布南京市场销售的主流油烟机产品对比检测结果,为消费者提供客观、公正、可比的产品信息。此次共采购了26批油烟机产品,涵盖了南京市场销售的主流产品和消费者的主要购买渠道,均为外置式油烟机。经过验...

上网干什么 宽带使用大数据,我们上网在干什么?

上网干什么 宽带使用大数据,我们上网在干什么?

我们已经习惯了用宽带上网。生活在互联网上已经成为大多数人的生活状态。随着光纤宽带的普及和农村宽带建设的加快,中国人越来越离不开宽带和互联网。 随着高速宽带建设的快速发展,光纤越来越普及,数据流量呈爆炸式增长 在中国改革...

欧冠16强抽签 欧冠16强抽签结果出炉 拜仁尤文抽到上签?

  • 欧冠16强抽签 欧冠16强抽签结果出炉 拜仁尤文抽到上签?
  • 欧冠16强抽签 欧冠16强抽签结果出炉 拜仁尤文抽到上签?
  • 欧冠16强抽签 欧冠16强抽签结果出炉 拜仁尤文抽到上签?

欧冠抽签结果 欧冠16强抽签结果出炉 拜仁尤文抽到上签?

  • 欧冠抽签结果 欧冠16强抽签结果出炉 拜仁尤文抽到上签?
  • 欧冠抽签结果 欧冠16强抽签结果出炉 拜仁尤文抽到上签?
  • 欧冠抽签结果 欧冠16强抽签结果出炉 拜仁尤文抽到上签?

卖酒商城 杭州酒商尝试用大数据卖酒 看名酒的阵痛转型

酒商请IT高管,玩的是哪个?传统酒商浙江上元集团有限公司最近不惜任何代价招聘了几名有IT背景的高管。原来他们打算在数据时代做“卖酒人”。董事长朱月明表示,他们已经和拥有约650万会员的尚品红酒网结婚,上元集团在华东线下...

宁波徐戎三村 宁波徐戎三村居民楼倒塌事故调查结果昨公布

宁波徐戎三村 宁波徐戎三村居民楼倒塌事故调查结果昨公布

浙江在线2012年12月13日2012年12月16日中午12时10分,宁波市江东区徐戎村2号楼整体坍塌,造成一死一伤。房子在使用过程中突然垂直倒塌。这么罕见的事故是什么原因造成的?经过近一年的调查,昨天下午,宁波市政府...