个人数据分析万字干货 | 数据分析的基本方法论，收藏了慢慢看！

2017年12月3日，应“水滴互助”的朋友邀请，分享我个人数据分析的一些基本方法论。数据产品基于降水数据分析的思路，这两个领域略有重叠。在这里整理文章，分享给大家。

“为什么-什么-如何”是一个很好的解释概念和执行的思维模式。这一次，按照这个框架，“数据分析”是拆分的。相信很多朋友都有丰富的分析经验，所以要从个人角度梳理一下，以供参考。为了帮助大家更好地理解这篇文章，先贴一张思维导图:

一. WHY：为什么要做数据分析

目前大部分关于数据分析的文章都忽略了数据分析本身的目的。这将导致我们在执行时动作的变形。只有以终为始，才能保证不跑路。个人认为，数据分析就是对业务问题进行量化分析，得出结论。有两个关键词:量化和商业。

先说量化。量化是为了统一认知，保证路径可以追溯和复制。只有统一认知，不同层次、不同部门的人才能在话语权平等、方向一致的背景下讨论合作，公司内部的人才能避免用“我感觉”、“我猜测”来猜测当前的经营状况。路径具有可追踪性和可复制性，这意味着可以通过量化的结果找到并复制许多优化方法。同样是转化率优化。可以预测谁会得到更好的结果，使用方案A和方案B会得到多少更好的结果..

为了量化，需要做到三点:建立量化体系，明确量化的重点，保证数据的准确性。

1.1建立量化体系

量化体系的建立主要是基于“指标设计法”，设计业务的“核心指标+拆解指标+业务指标”，最后放入全公司通用的“指标字典”和“维度字典”。这类工作通常由数据分析师或数据PM来完成。这样就可以初步建立起一个全面系统的全公司量化分析框架，保证日常分析可以“层层分解，不重复不泄露”。

1.1.1指标设计方法

说到索引设计方法，你可能会觉得你以前听说过产品设计方法、程序开发方法、索引设计方法。事实上，指数设计是一种以准确性和可理解性为标准，并将统计和商业效果相结合的方法。

准确是指能准确达到测量目的，通俗易懂是指指标算法能直观地表现好坏，指标算法也通俗易懂。两者之间总有选择的余地，准确性第一。比如我们要衡量一个群体的收入差异，是用方差还是基尼系数？方差很好理解，但不能说明两个极端有多大区别。基尼系数算法很难理解，但可以准确描述这个问题。

具体到指标设计，我们需要用到一些常用的统计工具:

以客户质量分析为例:简介是我们看客户的平均支付金额或支付中位数来了解客户简介。要想知道这些客户的质量好不好，需要用方差和标准差来描述。如果想了解更多细节，可以了解每个区间的用户数来做判断。

这里有一些提示供你参考:

比率指标:注重实效(订单转化率，看单数没用)

关联指标:既要看新客户数量，也要看CAC，保证数量的前提也要保证质量

防止坏指标:错误指标，虚荣心指标，复杂指标

以下是对每一个提示的目标的简要说明。之所以采用比率指数和伴随指数，是因为它能够清晰地反映业务的“效率”，有效防止因追求单一指数而导致的动作变形。如果这车能跑10万公里，不代表车有多好。只有“速度=距离/时间”才能体现这辆车的效率。同时，如果片面追求速度，会导致车的剑在设计上误入歧途，给驾驶员带来危险。因此，需要增加“故障率”或“事故率”等伴随指标，以确保安全。

不良指标中的“虚荣心指标”最早出现在《精益数据分析》一书中，作者简单的将“PV/UV”等指标归为虚荣心指标。刚开始我是认可的，但后来在实际申请过程中，发现这些指标对于监控很多业务来说是无法避免的。后来我把“虚荣心指数”修正为“把离业务目标太远的环节定义为核心监控指标”。对于一个即时通讯APP，需要监控下载次数、启动用户和注册用户，但不能作为核心监控指标。更合适的是消息数或者“有过对话的用户数”。复杂的指标往往是各种各样的“指标”，很多指标是加减乘除的，这就使得此类指标波动时很难分析原因。

拥有定义和解释指标的权利，是一件很高级的事情。这就要求设计师对业务有很深的理解，有很高的抽象能力。对于分析师来说，拥有定义指标的权利将突出你在业务方面的重要性。当然，这并不是为了定义指标而鼓励大家定义指标。找到行业内现有的量化方法，在公司推广也是一件很棒的事情。

以美容外卖“美容厨师率加权指导值”为例。为了避免泄露商业秘密，将原本用来衡量用户体验的指标改为“美女厨师率”，并对以下背景略加修改，让大家都明白其中的精神。指标的背景是保证用户的用餐体验，美容外卖总部提出每个城市的商家必须配备一定比例的美容大厨。但城市提出异议:不同城市有不同的商家，大商家厨师多，漂亮厨师率相对较低，不可能用一个统一的数值来比较所有城市。所以总部设计了这样一个指导值:全国的商家分层，每一层的商家拿到全国平均，然后每个城市对照基准平均值产生自己的基准值，也就是美女厨师率的加权指导值。虽然计算有点复杂，但在实际应用过程中，BD人只需要知道整体差距和各层业务的区别，就很容易有针对性的落地和优化。

1.1.2建立指标体系

按照“指标设计法”，如何围绕业务建立指标体系？核心是根据业务特点确定核心指标，在核心指标的基础上从不同角度进行拆解。然后慢慢补充其他业务的指标。

拆卸时，需要根据指标而不是尺寸进行拆卸。例如，订单数量也可以细分为每个类别的订单总数。这可以通过保持上层和下层的索引名称不一致来避免。拆卸过程遵循“层层拆卸，无重漏(MECE)”的金字塔方法论。如果业务拆解或补充的指标太多，可以借鉴数据仓库中“域”的概念来管理这些指标，比如上图中的“交易域”、“商品域”、“用户域”。

在标准的索引系统中，涉及到元数据管理领域。包括索引命名的规范，数据存储和计算的管理等等。如果有兴趣，可以搜索相关文章或者阅读阿里巴巴新的《大数据实践之路》。下面，我们将截取一个来自云起会议的PPT关于指标给大家的命名标准:

1.1.3构建索引维度字典

这里是转让公司前期的指标维度字典(Bus Matrix)，一定程度上解决了之前公司指标定义不清或不一致的问题。现在这套东西已经产品化了，可以在可视化产品中查看和展示。

对于暂时无法生产产品的公司，建议分析师可以通过Google Docs或Wiki统一维护一些关键常用指标。

对于维度总线矩阵，主要通过维度为数据仓库建模、数据产品设计和多维交叉分析提供框架和基础。

1.2明确的量化重点

在每个阶段，应该清楚地定义当前的业务优先级。量化系统需要根据业务阶段改变量化的重点和方法。同时也意味着有更详细的指标和更大的监测和推广力度。

比如外卖行业早期，经历了重视订单数量、重视订单金额、重视新客户数量+补贴率、重视新客户数量+资金利用效率(交易完成进度/费用完成进度)的过程。我们可以看到，随着战争阶段的升级和变化，我们开始考虑新客户的数量，同时控制补贴，由于战争趋于正常，我们开始控制整体补贴额度，通过争取效率来击败对手。在每一个阶段，都需要根据不同的战场情况来判断当前的焦点，从而建立一个围绕焦点无死角的360度分析监控系统。

1.3保证数据的准确性

在数据准确性这个话题上，数据产品已经有了成熟的数据质量管理方法，涉及到数据源的监控、指标计算和数据展现。本文主要从分析师的角度阐述了保证准确性的方法，不会重复数据产品。

采用可信来源:多个来源的交叉验证，在采用新来源时要格外小心

确定处理方法:索引定义和处理算法

双重检查:量值、计算逻辑和商业常识

本文重点介绍了双重检查的技巧，它可以使许多经理或投资者在不了解业务的情况下，判断数据是否有问题。

震级检查:每个数据都有其大致的范围，如DAU、WAU和MAU。

计算逻辑检查:一般对于积分偏分，比如市场占有率，必须满足以下要求:1。最大值不能超过1；2、各部分之和应为1；3.两个数相加后，总和应该在中间范围。

业务知识检查:根据其他常用数字计算业务范围。如果有人告诉你某个社交APP的DAU超过1亿，你大概知道你是不是在吹牛，因为只有少数的APP一天活1亿以上。对于DAU/MAU，所有行业都有响应范围值，淘宝为34.6%，天猫为15.5%，JD.COM为15.8%。

1.4从业务方面来看

除了“量化”，另一个关键词是“业务”。只有解决业务问题，分析才能创造价值。价值包括个人价值和公司价值。对于公司来说，你提高了收入水平或者降低了经营成本；对于个人来说，你知道如何利用数据解决业务问题，这对个人的能力成长和职业生涯有很大的帮助。

总结一下，如何站在业务方的角度去思考，就是八个字:“为他们的担心担心，给他们想要的”。这不仅适用于分析师的职位，对于供应商来说，在以供需为主要关系的所有互动过程中，准确理解彼此的需求是最重要的。比如PM是给用户的，分析师是给业务方的，下属是给上级的。

在具体的落地过程中，主要是在以下几个环节

充分沟通

简洁的结论

为登陆提供信息和建议

寻求反馈

在沟通中，确定业务方要分析什么，提出更合理更专业的计量分析方法，同时做好节点同步，避免一路走黑。在分析业务需求时，它类似于很多产品需求分析方法论，所以需要明确所需数据背后的含义。比如业务方说要看“页面停留时间”，但他实际想要的可能是衡量用户质量，所以“留存率”和“目标转化率”是更合适的指标。

在阐述分析结果时，要记住结论要先来，层层解释，然后提供论据。关于论点，图片>:表格>:单词。因为业务方或者管理层的时间有限，一大块邮件就扔了，没人管你分析了什么。需要在邮件前面用1-3句话给出结论，让需求方不用看后续内容就能知道你报告80%的内容。

关于“提供信息量及落地建议”，首先要明白信息量是什么意思:提供对方不知道的信息。明天太阳从东方升起，不是信息，是在西方。在分析的过程中，一定要站在专业的角度，从已知边界向未知边界进军，争取一个新的、坚实的论据，并根据分析内容给出可以落地的建议。举个简单的例子:

寻求反馈是很多分析过程中缺失的一步，数据分析后没有持续的跟进。那你不知道你做的对不对。反馈就像一面镜子，允许你及时调整和优化你的方法。

二. WHAT：什么是数据分析

数据分析的本质是把握“变”和“不变”。

“变化”是数据分析的基础。如果一个企业每天订单1万单或者每天以10%的速度稳定增长，就不需要分析了。要想把握“变”，首先要形成“不变”的意识。

积累“不变性”，就是发展“数据常识”的过程。“不变性”是基于对历史数据的不断观察和积累。一般来说会是一个区间。范围越精确，对变化越敏感。有三种个人习惯可以帮助养成“不变”:

养成习惯，每天第一时间查看数据:实时&:每日周报

记住每个指标的大数，反复计算

记录关键数据(列表&:报告)

大多数指标不需要记住所有的数字。简单记住大数字，10000以下只有10000位数，有些数字只需要记住百分比。指标之间的计算可以帮助你整理出每个指标的数量级关系和逻辑脉络，在出现波动的时候更加敏感。记录关键数据是将工作和生活中遇到的有趣的列表或数据报告保存在一个统一的地方，以便于参考和分析。

在“不变”的基础上，可以逐步培养指标敏感度，即实现指标偏离的能力。这主要是通过周悦的各种日常监控和同比监控以及日常好奇心来维持的。

下面是一个管理林元帅的野史:林彪带兵，每次战斗都要记清楚俘虏和歼灭敌人的数量和种类，这是一个习惯。1948年，在辽沈战役寻找对方指挥官的过程中，发现一次遭遇战的战报数据略有变化。他意识到偏离了过去“不变”的基础:缴获的短枪和长枪的比例，缴获和摧毁的汽车和大车，缴获和杀死的官兵比其他战斗中的稍高。根据这个偏离指数，他迅速圈定了对方指挥所的位置，一举打下了对方的大本营。

从QuestMobile年春季列表中，让我们简单看看“指标偏差”是如何应用于日常分析的:

在这里，让我与你分享如何看待这个列表:

看整体排名:想不到哪个应用在前面

看行业排名:看行业排名及其变化

看看增长率:哪些应用增长更快

看看其他指标，如使用时间

这里我试着抛出几个问题:

新浪新闻甚至比腾讯新闻还高？今天的头条比一点信息都低？

第二枪比阿托快？

百度地图在榜单上高于高德。为什么于永福敢宣称去年活跃终端数量第一？

QQ的时长已经连续住了两个季度零个月。有什么意义吗？

按增长速度排序，王者荣耀最快，其次是今日头条，亚图更快，高德地图。既然高德还是一个快速成长的APP？

数据分析的定义和国外商业分析书的定义用作脚注:

三. HOW：怎么进行数据分析

任何数据分析都是“细分、比较、溯源”的连续交集。细分和比较最常见的维度是时间。我们用时间进行周月同比。发现数据异常后，我们对维度或流程进行细分，一步一步拆解，找到问题所在。如果发现某个维度的问题，需要追溯到业务方或者真实方，确认问题来源。如果经过反复细分和比较，问题仍然没有得到确认，则需要追溯到业务日志或用户访谈，进一步了解情况。

3.1细分

以下内容在之前关于大数据和用户的研究中略有提及，这里做一个总结。就细分方法而言，主要有三种方式

交叉:按照一定的维度对指标进行划分和交叉分析

纵向切割:以时间变化为轴，将指标分为上游和下游

内切:从目标内部按照一定的模型进行分割

交叉，以转身为例，对维度和指标进行分类交叉。当某类指标出现问题时，我们就知道要分析哪个维度了。在横切分析中，经常需要跨多个维度。这在数据分析方面叫做跨多维分析。这也是刚才提到的“维度总线矩阵”中看到的各个维度的交集。

纵向切割，如果有目的有路径，就用漏斗分析。如果没有目的或路径，则使用轨迹分析。如果没有目的和路径，就使用日志分析。

漏斗分析可分为长漏斗和短漏斗。长漏斗的特点是环节多，时间周期长。常用的长漏斗有渠道归因模型、AARRR、用户生命周期漏斗等。短漏斗目的明确，时间短，如订单转换漏斗、注册漏斗等。在轨迹分析中，桑基图是常用的方法。常见于各页面的流通关系，电子商务中各类目的转移关系等。日志分析，通过直接浏览用户的前后日志，分析用户的每一个动作。

各种手段的细分经常交叉使用。例如，在纵向切割订单漏斗后，可以横切它以查看哪个维度的转化率导致了问题。

在内部，分析主要基于市场上现有的常见分析模型，如RFM模型、群组模型和细分模型。RFM，即最新的购买时间、频率和金额，综合决定了用户的忠诚度和粘性。队列，或同期群分析，通过分析不同时期进入平台的新用户，区分不同新用户的质量，如保留率或目标转化率。细分通过几个条件对用户进行分层，然后对不同的用户进行分层分析和操作，比如用户活动分层等等。

3.2比较

比较主要分为以下几类:

交叉比较:根据细分中的交叉维度进行比较，如城市和类别

纵切对比:与细分中的纵切维护进行对比，如漏斗不同阶段的转化率

目标对比:目标管理中常见的，比如完成率等。

时间对比:一天天，周月同比；7天移动平均线比较，7天极端比较

时间对比严格来说是横切对比。但是因为时间维度在数据分析和产品中极其重要，所以要简单提一下。在横向比较中，有一种众所周知的数据应用方法，即“排名列表”。通过这种简单粗暴的方式，我们可以驱使人们达到目的，或者占据人们的认知。前者有销售完成清单。后者有一个最畅销的类别列表。

3.3可追溯性

经过反复细分比较，基本可以确认问题。此时，需要与业务方确认数据是否由于一些业务动作而异常，包括新版本的推出或活动策略的优化。

如果还是没有头绪，只能从最细的粒度开始，比如

用户日志分析

用户访谈

了解外部环境，如外部活动、政策和经济条件的变化等

3.4衍生模型

在“细分比较”的基础上，可以推导出很多模型。这些模型的意义在于，它们可以帮助你快速判断一件事情的关键要素，不要去关注它们。这里有几个供参考:

为什么-怎么-什么

5W1H

5为什么

4P模式(产品、价格、渠道、宣传)

SWOT模型(优势、劣势、机会、威胁)

PEST模型(政治、经济、社会、科技)

波士顿矩阵

例如，最近，JD.COM和美国的交货时间可能会延长。鉴于与物流相关的客户投诉的增加，可以使用PEST模型来分析是否存在政治问题。当你对竞争产品进行比较分析时，SWOT或4P模型可以为你提供不同的角度。

四. 数据分析如何落地

以上言论都是偏于“道姬叔”的“术”部分，但以下是总结以上内容并结合实际工作的“术”部分。

4.1数据分析流程和场景

根据不同的过程和场景，会有不同的注意点和“艺术”的应用

4.2数据分析中常见的谬误

控制变量谬误:A/B测试时变量控制不好，导致测试结果没有反映实验结果。或者在对比数据时，两个指标没有可比性。

样本谬误:在抽样分析中，选取的样本不够随机或代表性不足。比如说，互联网圈的人会发现身边的人几乎不用“今日头条”。为什么这个APP还能有这么多浏览量？有一个类似的概念叫做幸存者偏差。

定义谬误:在阅读一些报告或披露数据时，人们往往会感到困惑。“网站访问量过亿”指的是用户数或者访问量？

比率谬误:比率或比例指标的谬误可以单独提出来。一是每次谈到这类指标，都需要明确分子和分母是什么。另一方面，在讨论变化的百分比时，有必要注意基数。即使有的人工资只涨10%，也可能是150万…

因果关联谬误:关联会被误认为因果，中介变量会被忽略。比如，发现冰淇淋销量与江河淹死儿童数量有显著相关性，于是下令削减冰淇淋销量。其实可能只是因为两者都发生在炎热的夏天。天气热的时候，买冰淇淋的人越多，去河里游泳的人就越多。

辛普森悖论:简单来说，两种不同的分组数据相加，在分组比较中占优势的一方，将是在整体评价中失势的一方。

最后总结几句，也是本文的核心思想:

数据准确性是第一要务

从业务的角度考虑:担心他们的想法，给他们他们想要的

定义“改变”和“不改变”

细分、比较和可追溯性

结束。

精选干货

1.《个人数据分析万字干货 | 数据分析的基本方法论，收藏了慢慢看！》援引自互联网，旨在传递更多网络信息知识，仅代表作者本人观点，与本网站无关，侵删请联系页脚下方联系方式。

2.《个人数据分析万字干货 | 数据分析的基本方法论，收藏了慢慢看！》仅供读者参考，本网站未对该内容进行证实，对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址，https://www.lu-xu.com/junshi/1182836.html

个人数据分析万字干货 | 数据分析的基本方法论，收藏了慢慢看！

台铁脱轨列车上多为清明扫墓民众列车卡在清水隧道内究竟发生了什么?

不稳定的奥术水晶魔兽世界官方谈游戏饰品设计：总体来说满意

工银e生活工银e生活线上申办全国ETC业务操作指引

mhc分子 NetMHCpan4.0整合亲和力和洗脱配体数据更准确MHC-I分子相

大数据开发培训哪家好大数据培训机构哪家好首选好程序员错不了

传漾中国广告专访丨传漾王跃：以技术之力，推动数字行业数据安全与广告规范

易付宝官网苏宁易付宝等非银行支付机构《支付业务许可证》获续展

南京公证处南京公证处家事法律服务中心一周年业务汇总与分析

数据交换数据交换共享平台整体解决方案

数据交换平台数据交换共享平台整体解决方案

个人数据分析 万字干货 | 数据分析的基本方法论，收藏了慢慢看！

台铁脱轨列车上多为清明扫墓民众 列车卡在清水隧道内 究竟发生了什么?

不稳定的奥术水晶 魔兽世界官方谈游戏饰品设计：总体来说满意

个人数据分析万字干货 | 数据分析的基本方法论，收藏了慢慢看！

台铁脱轨列车上多为清明扫墓民众列车卡在清水隧道内究竟发生了什么?

不稳定的奥术水晶魔兽世界官方谈游戏饰品设计：总体来说满意