作者:何明科

消费品企业应该如何使用内部产生以及外部采集的数据,像互联网公司一样建立用户画像与会员体系,以数据驱动的方式进行精细化的生产,运营和销售?

传统的管理咨询公司,虽然有无数顶尖的大脑,但是他们的大脑只靠Excel等简单工具的辅助,这样的算力,能不能满足上述的需求?

在2015年上半年,我们团队有幸为国内一家时尚消费品行业的龙头公司进行数据平台的建设,历时半年,完成了内部数据的打通和洞察,用户画像,会员体系的搭建,以及外部数据获取与跟踪。在这里和大家分享我自己的一些体会,希望更多的消费品企业可以用数据驱动的方式来进行精细化的运作。

其实作为龙头消费品企业,其数据生产能力与中等规模的互联网公司不相上下,支撑日常业务的IT系统大大小小共有十余个,比如:

1)分销系统: 支撑全国上千家线下门店每日的销售配货,每日订单量在数十万量级;

2)电商订单系统: 负责处理十余个主流电商(京东,天猫,唯品会,一号店,聚美,亚马逊,当当网,有赞等)的订单管理与客服;

3)仓库管理系统,负责全国各大区域的仓储物流,数千个SKU的备货情况;

4)BI系统: 负责各主要业务系统的数据聚合,制成日常统计报表;外加大大小小的财务系统,人力系统,绩效系统,品牌/分公司订货系统等,每日产生的数据维度以及量级其实已经相当庞大。

但和互联网公司相比,消费品企业的数据消费,数据分析能力存在明显的短板。越来越多的管理层也十分希望像互联网公司一样管理用户和数据,使用数据驱动他们的决策。

面对这样庞杂而分散的数据以及对快速实时产生数据的渴求,不仅传统企业的IT及经营分析部门束手无策,再高端的管理咨询公司也只能挠挠头说“臣妾做不到呀”,实在是超越了这群聪明人大脑的算力。

接下来会从三个角度分享如何为传统行业搭建数据平台,首先介绍大数据(数据科学)与商业智能(BI)在消费品领域的应用,然后详细讲解用户画像与用户体系搭建,最后分享如何利用外部数据(电商,社交媒体)对行业趋势与其他企业的运营进行监控。

在这里面所用到的数据相关的技术,已经大大超越管理咨询顾问的算力。如同封面图中的《魔戒》水晶球Palantiri,它如同数据技术赋予了人类及精灵看到任何地方的能力。而传统的人类,无论如何提高人肉的眼力,也只能到目力所及的有限范围。

1、大数据和商业智能(BI)

我们很少说自己是一家大数据公司,因为大数据这三个字的意义更多是指一种概念和思维方式,并没有什么具体的含义,既不是一种工作也不是一种技术,可能勉强算得上是一些门槛稍高的,和数据科学有关的算法,技术以及工具的统一称谓,比如数据挖掘(聚类,关联),机器学习(逻辑回归,神经网络),比如自然语言处理,比如分布式运算(Hadoop, Spark)。但在服务具体企业的时候,我们难免会被套上大数据的壳子,毕竟大家都在找能做“大数据”的公司。相比大数据,Business Inteligence(BI)的历史就要久远许多,在各大软件厂商的不断教育下,大中型公司几乎都采购了BI软件。其实BI也是一个比较宽泛的概念,和大数据一样包含了许许多多的技术和工具,像是数据仓库,OLAP cubes,Data Mart,Star schema,数据挖掘等等。那么他们究竟是不是同一个东西呢?

1.1 商业智能(BI)

其实软件厂商所提供的BI软件与广义的BI概念还是有很大程度的区别。为了追求高度的抽象化与通用性,BI软件大部分时间所承担的责任是一家公司的各类报表应用:将各个IT系统的数据聚合至BI,然后进行统计汇总,并统一在前端通过BI portal呈现出图表与数值,便于业务人员了解日常数据和运营情况。所以除了ETL部分以外,BI软件绝大多数的功能都是通用性极强的,跨行业,非定制化。

ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。其实传统的消费品企业面对零散的数据库,特别需要ETL的服务。

ETL看似低端,其实当今的大数据顶尖企业Palantir,在最初为CIA服务的时候,也是从ETL开始的,让美帝特工不用在分散的多个数据库上分别做一次查询。

这也就决定了BI软件的sweet spot在于监控和绘制通用性的统计报表,比如时间序列统计,分布统计,分段统计等等。图1展示了这家消费品企业两年间平均价格变动与总销量的时间序列,可以看出销量两年来稳步增长,有小周期性(一二月份卖得少,换季的月份卖得多),而卖出商品的价格两年保持基本一致,并呈明显周期性变化(对于时尚消费品,冬款的造价自然要高出夏款许多)。图2展示了集团旗下各品牌的销量分布和占比,可见此集团有一个相当强悍的主品牌,以及2-3个在垂直领域表现不菲的子品牌,定期输出销量分布,可以监控各品牌的发展情况并衡量品牌策略是否成功。

BI软件的强项是将这些业务数据汇总起来,无需编程即可绘制出可供长期监控的可视化报表,同时实现随时更新,而不是传统管理咨询的一份静态报告。传统咨询提供的报告,往往在出炉的第一天就过时了。

1.2 数据科学

反观数据科学,如果站在一个数据工程师的立场上,BI软件做的事情其实也属于数据分析的范畴,任何数据洞察,数据挖掘工作都需要涉及到这些通用维度的基本统计。但在这种浅层分析的基础之上,数据科学家可以通过带入较强的人为干预和行业性输入,做到许多高于BI的数据洞察。而将这些洞察落地,运用至具体产品设计,营销方案,会员体系和售后服务中,便可以像互联网公司一样,实现以数据驱动业务。

举一个实际的例子,图3是用户重复购买间隔的CDF曲线(Cumulative distribution function)。横坐标代表天数,纵坐标代表百分比。数据显示,有37%的用户在第一次购买后的一个月(30天)内会进行第二次购买,而45%的用户在第二次购买后的一个月内进行了第三次购买,51%的用户在第三次购买后的一个月内进行了第四次购买。随着购买次数的增加,CDF曲线向左倾斜,也就意味着用户在建立了品牌认知后,购买频率显著增高,两次购买之间的间隔明显缩短。因此,诱发新用户建立品牌意识,进行二次购买的窗口为3-4个月的换季档,而对老客户的消费唤醒窗口期则更短,以1-2个月为最优。这是一个很典型的数据工程师利用自己的行业知识和经验来实现数据洞察的例子,也是BI软件无法做到的。首先研究复购间隔是消费品行业独有的场景,更重要的是想要完成这个洞察,其中所涉及的统计工作具有很强的定制性,也较为复杂,需要编写统计脚本或是使用多条复合SQL来实现,数据工程师的价值也在此有了体现。

除了复杂和高定制性的统计逻辑外,对于非结构化数据的处理和挖掘也并非BI软件的强项。对于大型消费品公司来说,全电商渠道的运营已经成了常态,每日来自京东,天猫,唯品会,一号店,聚美这些大型电商平台的订单数高达数万个。而这些订单中的邮寄地址里包含了巨大的信息量,比如用户所在的城市,地理位置,甚至是身份,职业,消费能力等等。通过程序和地图API将这些邮寄地址转化为经纬度后,可以对用户群做大量的精细研究。图4便是我们利用送货地址做的用户群分布的热力图,以北京的海淀区为例,大量的用户密集集中在中关村周边,其次便是各大高校宿舍聚集的区域,如五道口,知春路等地。红色标签为品牌线下店铺位置,可见门店已经覆盖了中关村,北京大学和五道口等地,但对于知春路片区,以及用户相对集中的牡丹园并未开设分店。相比之下安贞里分店四周并没有特别多的目标用户群出没。于是有了图4的用户分布及店铺选址。

热力图这样的算力往往超过了管理咨询公司的能力范围,然而对于用户的选址却是很有价值。

对于一些并无日常监控必要的统计,有时也会贡献许多有价值的洞察。图5展示了线上用户购买时间的分布情况。可以看得出,周末线上购物的时间十分均匀,除了半夜之外大部分时间段都有网购发生。相比之下工作日的线上购物时间分布就变得十分有趣,大量的订单集中产生在早上九点和十点之间,也就是说大量的时尚白领在上班途中,或是步入办公室后的第一件事便是败一件自己心仪的宝贝,然后才能心情舒畅地开始一天的工作。那么不管是自营电商促销,短信推广,还是各宣传阵地的推送,工作日早上8点至10点都是一个不错的窗口。

和图5类似,图6将线上用户的购买数据按照一周七天进行分布统计,也会出现一些有意思的现象,比如周六周日上网买东西的用户极少,每周网购的高峰出现在周一和周二。或许上班族们都是通过线上血拼来抚慰自己,治愈周一综合征的。而越临近周末,大家在线买东西的热情也就越低。

像图5,图6这样的数据洞察往往也是BI软件无法捕捉到的。数据工程师们可以将这些没有长期监控的意义的指标转化成拥有商业价值的洞察。同时这又是传统的管理咨询公司无法做到的,因为他们缺乏能力整合如此海量的数据并按天甚至按小时进行实时输出。

个人认为,数据科学(大数据)和广义的商业智能原本没有本质区别,两者都涵盖了非常广泛的内容,并且两者的核心都是通过数据处理和分析的方式,提升业务表现。但我们平时所谈论的“BI”很多时候其实指是软件厂商所提供的BI软件/套件,用于实现业务报表和统计监控的功能。暂且不提厂商们是否有故意偷换概念的嫌疑,BI软件和数据科学还是有着比较大的差异。可以说BI软件通过高度抽象的方法,提供了一种非常便利的数据汇总,统计,可视化的工具,从而完成了数据科学的一部分工作,而许多深层次的,带有行业性的,高于BI软件的分析与洞察,仍然需要数据工程师的参与,以及特定数据系统的支撑来共同完成。

总结

与传统的管理咨询公司相比,在BI层面,大数据的相关技术胜在算力:数据整合能力、实时处理能力以及呈现能力。

文章来源36大数据,www.36d ,微信号dashuju36 ,36大数据是一个专注大数据创业、大数据技术与分析、大数据商业与应用的网站。分享大数据的干货教程和大数据应用案例,提供大数据分析工具和资料下载,解决大数据产业链上的创业、技术、分析、商业、应用等问题,为大数据产业链上的公司和数据行业从业人员提供支持与服务。

End.

1.《如何画一列数的cdf曲线》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《如何画一列数的cdf曲线》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/3223646.html