数据挖掘项目如何快速完成一个数据挖掘分析项目？—

简介:通过上周的文章，大家应该对“数据挖掘”有了更清晰更全面的认识。具体有哪些业务，如何有效应用，快速实施一个项目应用实践？今天，我们将围绕一个实际的行业案例，按照“数据挖掘方法论”(详见历史推文《数据挖掘方法论》)，详细分析如何通过数据挖掘技术和方法快速完成一个项目应用实践，获得业务应用价值。

数据挖掘方法为数据挖掘项目提供了一个完整、高效、可控的项目管理过程。CRISP-DM方法论将数据挖掘项目的生命周期分为六个阶段，包括业务理解、数据理解、数据准备、建模、评估和结果部署。

那么，在实际的数据挖掘工作中，如何实践这种挖掘方法论呢？接下来，我们将以“公募基金精准营销”为例，详细介绍数据挖掘项目[建模工具:TempoAI完成]的开发流程和步骤。

第一阶段:商业理解

业务背景:证券公司发行的公募基金产品，传统的营销方式是外出人员电话营销。传统电话营销存在两个主要问题:

工作量巨大，因为是用全量客户名单来打电话营销：开展10万人次外呼营销任务，要4个外呼人员1年的工作量；意向成功率过低，平均接通率54%，意向成功率18.09%左右。

涉及部门:信息技术部、市场部、客服部(呼叫中心)

经营目标:提高意向成功率，优化出境营销策略，有效增加意向成功用户数量，提高投入产出比。

分析方案:

分类预测:构建潜在客户预测模型，预测大概率购买公募基金的潜在客户，为券商提供准确的营销客户名单。

分析结果验证:向呼出中心提供分析预测能够买到足够的人的名单，为呼出推荐公募基金产品，最后比较推荐名单与传统呼出的呼出效果，比较呼出成功率，从而判断分析结果是否显著。

阶段2:数据理解

收集的数据表信息包括:

借记卡用户基本信息表

信用卡用户基本信息表、用户身份识别码表

信用卡信息表、信用卡代码表和卡状态识别码表

信用卡交易流程信息表

用户业务信息表

公众信息表:商户代码MCC代码表、用户职业代码表等。

历史呼出反馈信息表

信用卡违约状态和未还款历史数据

设备信息

根据收集到的数据信息，进行数据理解:

用户特征探索:待营销用户分布格局、销售部门分布、性别分布、风险等级分布、业务开通。

第三阶段:数据准备

数据准备包括建模的数据选择、转换、清理、构建、集成和格式化。这里主要进行数据索引系统的设计，建模所需字段的生成，缺失值的处理。

临时数据处理:

阶段4:建模

基于风险等级、开户期限、年龄等用户基本信息、总资产、过去一年最大资产、过去六个月日均资产等资产信息，以及股票交易次数、过去两年购买墓地基金的最后天数、过去六个月金融持股比例等产品交易信息，构建用户公款潜在客户预测模型。基于该模型，可以预测大概率购买公募基金的潜在客户，为券商提供准确的营销客户名单。TempoAI内置的建模过程如下:

建模步骤描述:

(1)读取数据

拖到关系数据库的输入节点，选择数据源，选择购买公募基金用户的历史数据集，完成数据读取。

(2)设置角色

在设置角色节点，选择参与模型训练的变量，设置自变量(影响因素)和因变量(预测变量)。

自变量有:用户基本信息/资产信息、产品交易信息；

因变量为:flag(是否买公募基金，1表示买，0表示不够买)。

(3)数据分割

为了保证模型的可靠性，我们通常将原始数据集拆分成两三个数据集。在这里，我们将其分为两部分:一部分用于训练模型，另一部分用于测试模型的泛化能力(预测能力)。如下图所示，70%的数据作为训练集，30%作为测试集。

(4)梯度提升决策树

选择一种分类算法，建立分类模型。这里，我们选择梯度提升决策树算法，并将数据分割后的训练集接入算法。参数设置如下:

(5)训练集的分类和评价

算法的M口和D口连接到一个分类评估节点，评估训练集的预测效果。分类评估节点的参数设置如下:

(6)模型利用

算法输出的M端口连接模型使用节点，使用数据拆分后测试集的D端口连接模型。这里将使用梯度提升决策树生成的模型来预测测试数据集。

(7)测试集的分类和评估

该模型利用输出M口和D口连接一个分类评估节点，对测试集的预测效果进行评估。

(8)模型输出

将训练好的模型输出到模型库。

(9)连接END端点，完成流程构建，点击执行。

第五阶段:评估模型(评估)

评价模型是指在这个阶段，需要从技术层面判断模型的效果，从业务层面判断模型在实际业务环境中的实用性。

流程成功执行后，您可以在洞察页面上查看流程执行的结果:

这里主要看分类模型评价结果和分类模型预测结果。

点击“梯度提升决策树节点”查看分类模型内容及预测结果数据集：

下图显示了模型的内容:决策树和级别描述信息

下图显示了预测结果数据集信息:可以从业务角度评估预测结果的合理性。

点击“分类评估节点”查看分类评估结果（包括训练集评估和测试集评估）

训练集评价结果:包括模型精度、混淆矩阵、ROC/PR、Lift曲线、Gains曲线、基尼系数、K-S曲线。综合评价指标和曲线表明，该模型具有良好的评价效果。

测试集评估结果:如下所示

阶段6:结果部署

经过模型训练和模型测试，得到了理想的预测模型。模型的结果需要结合前面的阶段进行编写和总结，形成数据“分析报告”。如果涉及到工程应用，需要以不同的方式发布模型(调度、同步/异步服务API、实时服务等)。)进行其他业务系统的集成，形成最终的决策应用系统，需要“部署应用”。

分析报告

TempoAI洞察页面支持以Word格式直接导出完整的挖掘过程建模分析报告。如下图所示:

部署应用程序

构建预测流程，使用训练好的模型，然后发布预测流程，并将其部署为应用程序。

(1)建立预测流程

以待预测数据为数据源，读取并利用输出分类预测模型构建预测过程。如下图所示:

(2)发布预测流程

输入部署-发布以发布预测流程。

(3)施工进度安排

在部署-应用中，将发布的预测流程构建到计划任务中。该平台提供了一个任务调度器，可以配置调度任务，并在指定的日期范围内以一定的频率定期执行一个或多个进程，以完成预测的任务。如下图所示:

(4)建筑服务

在Deployment-Application中，用户可以将发布的流程构建成一个服务，根据流程数据源的不同，可以分为同步服务、异步服务和流服务。同步服务:支持第三方系统通过节俭/休息调用流程，实时返回预测结果。异步服务:支持第三方系统通过Rest调用流程，按照指定的频率定期执行，完成模型构建或数据预测，并将预测结果输入指定的数据库。流媒体服务:启动服务，当卡夫卡的队列中有消息时，就可以执行流程，完成流媒体数据的实时处理。

(5)服务调用

第三方系统可以调用相应的API，通过在第三方系统中输入参数来调用服务，并返回服务的执行状态。

呼叫模式:打开该服务的测试页面，如“下载样例代码”和“下载SDK”。将代码段复制粘贴到下载的样例代码文件中，可以通过运行代码来调用异步服务。调用接口可用于整合营销业务系统，形成最终决策应用系统，并向营销出库中心提供营销清单，以指导实际业务发展。

(6)部署结果的验证

根据预测分析可以购买的人员名单提供给出库中心，进行公募基金产品的出库推荐。最后，将推荐列表的呼出效果与传统呼出进行了比较。对比结果如下:推荐呼出后11天，拨打5877个电话(占传统呼出的36.01%)，获得意向客户1664个，是传统呼出32天总体意向客户的1.08倍。综合考虑营销活动的成本和效果，综合效果提高3.14倍。