近年来,随着移动互联网的快速发展,大数据的概念越来越流行,许多公司都在提出数据管理。很多人对数据操作的理解仅限于数字统计、原因分析等。其实这些只是数据操作的一小部分。数据最终是为产品服务的,数据运营重在运营,数据只是工具。
1.什么是数据操作?
“数据操作”有两层含义:
●狭义指“数据运营”岗位。和内容运营、产品运营、活动运营、用户运营一样,属于运营的一个分支。从事数据收集、清理、分析、策略等工作。,支持整个运营体系向精细化发展。近年来,越来越多的互联网公司设立了“数据运营”的岗位,主要分布在一线运营部门。与数据分析师的职位不同,数据运营更注重支持一线业务决策。
●泛指“用数据指导经营决策,带动业务增长”的思维模式,即基于数据的经营。属于一种必不可少的操作技能或思维方式,一般是指通过数据分析发现和解决问题,提高工作效率,用数据指导运营决策,带动业务增长。
综上所述,数据分析是数据操作必不可少的技能。
通俗地说,数据操作已经解决了以下五个问题:
1.我们该怎么办?——目标数据的建立;
2.现状如何?——行业分析、产品数据报告输出;
3.数据变化的原因是什么?-数据预警,分析数据变化的原因;
4.以后会怎样?-数据预测;
5.我们做什么呢-决策和数据的产品应用。
二、数据操作的责任
在为数据运营招聘找到100篇JD文本的基础上,我们使用R对其进行切分,并绘制出一个词云。
从这个词云不难看出,“数据分析”是数据操作的核心工作,右边的表格显示了排名靠前的关键词及其出现频率。
“数据分析”这个词在100 jds里出现了106次,遥遥领先。然后是“分析报告”、“提供数据”、“数据报告”这几个字,也说明提供数据报告和分析报告是数据操作中的重要工作。设置“数据指标”、“及时发现问题”、“提供解决方案”也是JD中的高频词,让数据运营岗位的具体职责一目了然。
综上所述,我们可以将其分为三个层次:数据规划、数据收集和数据分析:
●数据规划:收集整理业务部门的数据需求,构建数据指标体系;
●数据收集:收集业务数据,向业务部门提供数据报告;
●数据分析:通过数据挖掘和数据模型对业务数据进行深入分析;提供数据分析报告,定位问题并提出解决方案。
三、数据操作的常见误区
1.大量数据能带动业务发展吗?
数据多不代表能带动业务发展。有许多因素导致数据不能很好地应用于业务。
●因素1:数据质量问题
一方面,很多公司在收集数据的时候会收集很多脏数据,比如模拟机刷机,羊毛党刷机。如果不做防作弊识别,很难过滤掉这部分数据;另一方面,在采集数据时,不规范,不上报,在做数据挖掘分析时很难得到有效的信息。数据的准确性和稳定性是科学数据管理的基础。如果这两点不能满足,那么商业决策就会出现很多问题。
●因素2:数据与业务几乎没有关联
数据只有在与业务有足够强的相关性时才有价值。我们有很多指标,大概70多个,但是在日常分析中,经常使用的只有几个,其他的很少访问,或者会随着时间的推移慢慢丢弃。
●因素3,收集数据容易,使用困难
腾讯做了多年的数据分析,积累了很多经验,有一套自己完整的分析系统,在数据应用上自然没问题。但是,很多传统企业,比如中国移动、中国联通、电信、保险公司、银行等运营商,对这一领域特别迷茫。他们有很多数据,但是不知道怎么用。盲目收集数据没有多大意义。
2.分析报告是否能产生最佳解决方案
相信每个人每周或每天都会给出这个分析报告,但我们的分析结果真的是针对目标业务的最优解决方案吗?结果往往是负面的。这里也有几个问题。
●问题1:分析维度单一,不足以支持结论。
分析维度很多,比如版本、渠道、地域、设备属性、具体行为特征等。目前所有APP分析基本都是从版本和渠道两个维度分析;还有用户定义的事件。如果只使用事件ID进行分析,并且没有足够的参数进行限定,则很难支持决策分析结果。
●问题2:数据质量干扰分析结果。
数据质量是能够有效反映业务发展并给出有效优化策略的关键因素之一。如果数据质量不达标,基于数据的分析结果将大大降低。我们接触到的很多应用或多或少都被刷过。这类数据不仅给公司造成财务浪费,还影响正常数据,造成数据分析困难。
以一款即时通讯产品为例:
//第一步:制定产品目标//
这是数据操作的起点,也是产品投产后评价的标准,形成闭环。目标设定一定不能打脸,可以根据业务发展、行业发展、竞争产品分析、往年产品发展趋势、产品转化规律等来计算。目标通常用SMART原则来衡量。
1)S代表特定
是指工作指标应该是具体的、可评价的,而不是笼统的。比如我们设定产品基本体验的产品目标,不够具体,大家理解不一致。当时我们的基本产品目标是促进新用户保持第二天,这个很具体。
2)M代表可测量
是指绩效指标是量化的或行为化的,能够获得验证这些绩效指标的数据或信息;为了提高第二天新用户的保留率,我们需要给出具体的值。
3)A代表可实现
意味着业绩指标可以通过努力实现,避免设定过高或过低的目标;第二天新注册用户的留存率不是拍脑袋得来的。当时基于第二天新用户留存率的历史数据和游戏用户新注册用户留存率的行业参考值,我们设定了一个比较有挑战性的目标,第二天新注册用户留存率从25%提高到35%。
4)R代表相关
但与工作的其他目标有关;绩效指标与自己的工作相关;第二天新用户的保留率与用户行为密切相关,如用户对语音工具的认可程度、用户对平台内容的偏好等。,所以第二天新用户的保留率与产品性能和内容流行度有很强的相关性。
5)T代表有时间限制
注意达到目标的具体期限。产品目标可以制定如下:2013年12月31日前,新注册用户留存率第二天从25%提高到35%。第二天新用户留存率的提高,意味着更多的用户被主动转化,带动了整个用户活跃数量的增长。
//第二步:定义产品数据指标//
产品数据指标是反映产品健康发展的具体数值。我们需要给数据指标一个明确的定义,比如数据的上报方式和计算公式。比如上面的第二天留存率可以定义为:第二天留存率是一个比值,分母是当天新注册并当天登录到客户端的账号数,分子是分母中第二天再次登录到客户端的账号数。
注意这里的细节。第一天和第二天需要有明确的时间点,比如0: 00到24: 00,算作一天;问题是一个新用户第一天23点注册登录客户端,第二天凌晨1点下线;根据上述定义,该用户可能不会被记录为第二天保留用户,因为这里没有明确定义数据报告的详细信息。
定义是第二天再次登录客户端。以上情况的用户第二天没有登录行为,但确实是连续两天登录的用户。
因此,对于这个定义,需要添加详细信息:用户登录状态。如果心跳包每5分钟报告一次,该新用户可以作为第二天的登录状态用户报告。如果用户在0: 05之前注销并持续到第二天24: 00,他仍然没有登录状态,因此他不会被记录为保留用户。
我们根据产品目标选择数据指标,比如web产品,经常使用PV、UV、崩溃率、人均PV、停留时间等数据来衡量产品。定义产品指标体系,需要产品和开发团队达成共识。数据指标的定义明确,有据可查,不会造成对数据解释的理解上的差异。
//第三步:建立产品数据索引系统//
我们在提出数据指标的基础上,按照产品逻辑对指标进行汇总整理,使之有序。新用户第二天的留存率是我们订单的一个核心目标,但其实光看第二天的留存率是不够的。为了更准确地了解产品的健康发展,有必要全面调查影响用户保留率的各种因素。如图1所示,是一个常用的指标体系,包括:新用户、活跃用户、支付等数据。
一般IM即时通讯产品会用到以下指标体系,包括:账户体系、关系链数据、状态感知数据、沟通能力等等。具体指标包括:好友数量分布、观看频道节目时长、IM聊天时长、个人状态切换及时长等。,如图2所示:
//第四步:提出产品数据需求//
产品指标体系的建立不是一蹴而就的。产品经理根据产品开发的不同阶段提出数据要求。一般公司都有产品需求文档的模板,方便产品和数据报表开发、数据平台等部门的同事进行数据沟通和搭建。对于创业型中小企业来说,可能需要1-2个人来报告对产品数据的需求,但也建议做好数据文档的建设,比如数据指标的定义、数据计算逻辑等等。
有两种常见的数据报告要求:
1)标准协议报告,例如,点击按钮进行报告。
2)用户定义的协议提交。
//第五步:报告数据//
这一步是根据产品经理的数据需求和数据报告规范,完成报告开发,并将数据报告给数据服务器。上报数据的关键是数据上报渠道的建设。本来我在腾讯工作的时候并没有意识到这个环节的艰辛,因为数据平台部门已经建立了完整的数据通道,按照一定的规则使用统一的数据SDK上报数据就足够了。其中一个关键环节就是数据上报测试,曾经因为这个环节的测试资源不到位,造成了不必要的麻烦。
很多创业公司没有自己的数据平台,可以使用第三方数据平台:web产品,可以使用百度统计;移动产品可以使用优盟、TalkingData等平台。
比如下表是用于上报页面流量数据的发送函数send_web_pv,来源于迅雷哈勃数据平台规范。
下表是应用程序数据报告直播的掩埋点示例。
//步骤6-8:数据采集和访问、存储、调度和计算//
每一步都是一门科学,比如采集数据涉及到界面创建,考虑数据字段的扩展,数据采集过程中的ETL数据清理过程,验证客户端数据上报的正确性;在大数据时代,数据存储、调度和计算是极具挑战性的技术活动。
1.数据收集和访问
ETL,英文Extract-Transform-Load的缩写,用来描述从源到目的地提取、转换和加载数据的过程。ETL常用于数据仓库,但其对象不限于数据仓库。ETL是构建数据仓库的重要组成部分。用户从数据源中提取所需的数据,清理数据,最后根据预定义的数据仓库模型将数据加载到数据仓库中。
下图是产品数据系统的常见流程图。数据采集、存储和操作通常在图中的数据中心完成。
确认数据报告后,接下来的几件事就比较技术性了。首先,如何在我们的数据中心收集和存储上报的数据。
数据收集分为两个步骤。第一步是从业务系统向服务器报告。这部分主要是通过cgi或者后台服务器。通过统一的logAPI调用后,汇总存储在logServer中。当这部分数据量较大时,需要考虑使用分布式文件存储,主要是HDFS。这里就不展开了。
数据存入文件后,第二步是进入ETL的链接。ETL意味着通过提取、转换和加载来清除文本中的负载,然后将其存储在数据仓库中。
以腾讯为例:
腾讯的大数据平台现在主要支持离线和实时方向的海量数据访问和处理,其核心系统包括TDW、TRC和TDbank。
在腾讯内部,数据的采集、分发、预处理和管理都是通过TDBank的一个平台实现的。整个平台主要解决数据采集处理量大、实时性和多样性的问题。数据访问层、处理层和存储层三层架构解决了访问和存储问题。
1)接入层
访问层可以支持各种格式的业务数据和数据源,包括不同的DBS、文件格式、消息数据等。数据访问层会将采集到的数据统一成一个内部的数据协议,方便后续的数据处理系统使用。
2)处理层
接下来,处理层以插件的形式支持各种数据预处理过程。对于离线系统,一个重要的功能就是对实时采集的数据进行分类存储,需要按照一定的维度进行分类存储;同时,需要定制存储文件的粒度,以便离线系统能够以指定的粒度进行离线计算。对于在线系统,常见的预处理过程是数据过滤、数据采样和数据转换。
3)数据存储层
经过处理,HDFS被用作离线文件的存储载体。确保数据存储整体可靠,最终将处理后的数据放入腾讯TDW分布式数据仓库。
TDBank是一个离线和在线的处理系统,它从服务数据源实时收集数据,对分发的消息进行预处理和缓存,然后以消息订阅的方式分发到后端。
TDBank在数据源和数据处理系统之间搭建桥梁,将数据处理系统与数据源解耦,为离线计算TDW和在线计算TRC平台提供数据支持。目前通过不断改进,将以前的Linux+HDFS模式改为集群+分布式消息队列模式,前一天可以处理的消息量缩短到2秒!
从实际应用的角度来看,在考虑数据采集和访问时,产品应该主要关注几个纬度问题:
1)多个数据源的统一。实际应用过程中一般会有不同的数据格式来源。此时,在收集和访问这一部分时,需要统一转换这些数据源。
2)采集实时高效。由于大多数系统是在线系统,数据采集的及时性会更高。
3)脏数据处理。对于一些会影响整体分析统计的脏数据,在访问图层时需要进行逻辑屏蔽,避免这部分数据在后期的统计分析和应用中带来很多不可预知的问题。
2.数据存储和计算
完成数据上报、采集和访问后,数据将进入存储环节。以腾讯为例。
腾讯内部有一个存储数据的分布式数据仓库,内部代号为TDW,支持100数据的离线存储和计算,为业务提供海量、高效、稳定的大数据平台支持和决策支持。它是基于开源软件Hadoop和Hive构建的,并根据公司的具体情况进行了优化和改造,如数据量大、计算复杂等。
根据公布的数据,TDW基于开源软件hadoop和hive进行了大量的优化和改造,已经成为腾讯最大的离线数据处理平台。集群内机器总数5000台,总存储量超过20PB,日均计算量超过500TB,覆盖了腾讯90%以上的业务产品,包括广点通推荐、用户画像、数据挖掘、各种业务报表,都是通过这个平台提供基础能力。
从实际应用的角度来看,数据存储主要考虑几个问题:
1)数据安全,很多数据是不可恢复的,所以数据存储的安全性和可靠性永远是最重要的。一定要把最多的精力放在注意力上。
2)数据计算和提取的效率,作为存储源,会面临大量的数据查询和提取分析工作,这部分的效率需要得到保证。
3)数据一致性,存储的数据主要保证一致性。
//第九步:获取数据//
它是产品经理和数据分析师从数据系统获取数据的过程。常见的方法是数据报告和数据提取。
报表的格式一般会在数据需求阶段明确,特别是对于有积累的公司,通常会有报表模板,填写指标即可。对于更强大的数据平台,可以根据分析需要选择字段进行自助报表配置和计算生成。
以下是数据报告设计的一些原则:
●1、提供连续循环查询功能
看优盟数据平台提供的产品留存率数据报告,我们通常会关注留存率:1天后,7天后,30天后。
数据抽取是产品运营中常见的需求,比如抽取一批销量好的商品和相关领域,抽取一批有指定条件的用户。同样,一个功能比较齐全的数据平台,会有一个数据自助提取系统,不能满足自助需求,所以需要开发和编写数据提取的脚本。
如图12所示,腾讯内部数据门户承担了很多产品的数据上报、数据提取、数据上报等功能。
//第10步:观察和分析数据//
这主要是对数据变化的监测和统计分析。通常,我们会自动输出每日报告,并识别更改的数据。数据的可视化输出非常重要。
常用的软件是EXCEL和SPSS,可以说是数据分析的基本功。后面我们会分享在实际工作中使用这两个软件的方法和技巧。需要注意的是,在进行数据分析之前,先检查数据的准确性,确定数据是否是自己想要的,比如从数据定义到上报逻辑,是否严格按照要求的文档,数据的上报渠道是否可能丢失数据。建议对原始数据进行提取和采样,以确定数据的准确性。
数据解释在这个环节非常重要。由于产品熟悉程度和分析经验的不同,同一数据的解释结果差异较大。因此,产品分析师必须对产品和用户有很好的了解。
绝对值通常很难解释,通常是通过比较才能更好地表达数据的含义。
比如某语音产品上线后的第一周,每天新增注册10万人,这似乎是个不错的数据。但是如果这个产品是某个产品推出的新产品,用户通过弹出消息来接触,用户一天曝光一千万次,只带来10万个新的,就不是好的产品数据。
纵向比较,比如分析一个产品新注册用户的数据变化,可以与上周同期、上月同期、去年同期进行对比,看是否有类似的数据变化规律。
横向对比也是某产品新用户注册数据的变化。可以从漏斗模型来分析,从用户来源的不同渠道,比如顶部漏斗,每个渠道的转化率是否有变化,用户接触的渠道的数据是否有大的变化,渠道某个环节的转化率数据是否有变化。还可以横向比较不同的服务,比如一个产品的新注册数据,多玩家网络流量数据,游戏的新注册用户数据,找出数据变化的原因。
纵横对比就是对比同期多个数据变化的曲线,比如新注册用户,多玩网的流量数据,游戏中新注册用户的半年数据变化。三条曲线同时对比,找出一个数据异常的关键节点,然后查操作日志,看是否有操作活动的组织,是否有外部事件,是否有特殊日子的影响因素。
//第11步:产品评估和数据应用//
这是数据操作闭环的结束,也是一个新的起点。数据报表绝不是展示,也不是对领导问题的回应,而是为产品优化和运营提供的一种实用服务。就像产品人员的表现一样,不仅仅是看产品项目是否按时完成发布,还要持续观察分析产品数据,评价产品健康状况。同时将积累的数据应用到产品设计和运营中,比如亚马逊的个性化推荐产品,比如QQ音乐。数据产品应用大致可分为以下几类:
1.以效果广告为代表的精准营销
推荐周期短,实时性要求高;用户的短期兴趣和即时行为影响较大;交付场景的上下文和受众的特征。
产品案例:Google、Facebook、微信朋友圈。
2.视频推荐代表的内容推荐
长期利益的累积影响很大;时间段和热点事件;多维内容相关性很重要。
产品案例:Youtube
3.以电子商务推荐为代表的购物推荐
长期+短期兴趣+即时行为合成;最贴近现实,季节和用户生活信息是关键;对订购的追求与交易和支付有关。
产品案例:亚马逊、淘宝、JD.COM。
//summary//
最后,一张图片总结了数据操作的11个步骤:
▎如何建立一个产品数据操作系统可以从以下五个要素来考虑:
1.人员:专职数据运营同事
专职专业产品同事负责建立产品数据系统的流程和标准化,沉淀经验,促进系统的持续优化和发展;专职专业开发同事,负责数据上报、报表开发、数据库开发维护等。,确保产品数据系统的开发和实现;
2.数据背景:全面系统的数据仓库
有专门的统一数据仓库记录自己产品的特殊个性数据,充分利用数据平台部门的通用接口,共享数据源,充分降低成本,就可以获得通用数据。
3.数据前台:固化的数据系统展示平台
需要专业的报表开发同事对报表系统进行系统思考,灵活迭代的实现,而不是简单的承担报表需求,导致报表泛滥。
4.工作规范:需求被简化
就是上面说的建立产品数据系统的11步流程和方法,其中很好的把握了数据需求,一个是固化需求开发流程,一个是实现临时需求。
5.工作输出:数据应用
常规数据工作是分析各种数据,输出日报、周报、月报;根据数据分析提供决策依据。开发数据产品,如精准推荐、用户生命周期管理等产品规划。
PS:网舟科技长期专注于金融保险、通信、航空空、互联网、旅游酒店等行业的电子渠道大数据运营。,为客户提供全球领先的电子渠道转型咨询、大数据挖掘和应用定制服务,帮助客户转型互联网,提升数字运营和数据营销能力。
1.《measurable什么意思 从0到1,手把手教你如何搭建数据运营体系》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《measurable什么意思 从0到1,手把手教你如何搭建数据运营体系》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/1677953.html