数据处理是数据产品经理最重要的部分,与最终报告显示、分析报告、数据驱动相比,往往需要较长的时间,价值较低。我们经常听到相同的功能数据分析结果恰恰相反。追溯原因发现数据处理过程中存在错误等。(大卫亚设)。
从句数据产品的角度,介绍了数据采集后数据流处理过程数据产品输出密切相关的数据仓库。
一. 数据处理过程
数据产品经理的大部分工作都是将无法预测的数据转换为可见报告,结论性分析报告——从各种异构数据源汇总数据,最终以报告、仪表板、动态数据分析查询、结论性分析报告等形式展示。
1.有哪些异构数据源?
服务端,客户端用户行为日志用户过去的信息,定性信息。性别、职业的用户画像数据)、定量信息。最近30天的关注倾向程度)从第三方等获得的信息、E.G .爬虫数据、手动整理的数据等2。这个信息大部分需要二次加工、清洁、清洗。
脏数据的清理、整合、E.G .延迟数据根据发生日期进行汇总。创建基本表以提高数据的易用性。E.G .创建用户基本数据、行为数据的基本表报告、可直接应用于分析的用户行为结构业务应用程序表。粗略叙述的两个阶段是影响报告展示、分析结论的关键,也是数据产品经理最需要细心处理的地方。
二. 数据仓库(Data Warehouse)
数据处理过程往往很模糊,但“异构数据源-结构化数据表-报告/分析报告”过程中常见的各种数据库表是数据仓库中的实体,如典型的hive、spark、Oracle等。那么,在数据产品经理的日常数据处理中,应该注意哪些数据仓库知识点?
1. 数据仓库分层
为什么要分层?
更清晰的管理、数据跟踪(清晰的数据结构、明确的血缘关系):有助于找到数据处理的整个链接。通过建立通用临时表减少重复计算:为了避免每次从原始数据输出业务数据表,可以有效地提供能够直接对下游业务数据表做出贡献的通用临时表。明确的数据仓库分层有助于分解复杂的数据-业务应用程序、分解为多个阶段、每个层只处理单个阶段的数据处理过程。数据分层具体意味着什么?每一层都要注意什么?
生产数据层(ODS,操作数据存储区):最接近数据源原始外观的此级别数据,通常在数据源直接通过ETL后存储在此处。从原始数据到ODS层,为了防止原始数据受损和产生不必要的故障排除成本,建议不要清理复杂的数据。
仅推荐——万韩元
将Json记录的日志映射到字段。清理不当行为数据;数据转码:将编码映射到真正意义上的值数据标准化。E.G .以YYY-MM-DD格式格式化所有日期。修改异常值,E.G .视频播放表: (包括用户id、视频id、播音员、播放时间等)如果表被分为ODS层,则必须确保已清理了原始数据中所有有意义的字段。
详细数据层(DWD、Data Warehouse Detail):对ODS层执行业务维的数据清理和规范化操作。E.G .用户播放视频的日志级表
桌子被分成DWD层后,业务层面的详细数据是否清晰明确地记录下来?
摘要数据层(DWS、Data Warehouse Summary):根据业务需求汇总ODS/DWD层的数据。E.G .带有用户图片信息的播放视频
对于DWS层表,是否可以有效方便地服务业务方向统计要求?
应用程序数据存储(ADS):业务所需的统计结果,E.G .每种类型用户的视频回放统计数据。
如果是ADS分层表,是否可以获得业务所需的统计数据?
维度表格(DIM):储存基本资讯,例如使用者特性表(性别、年龄等)。
对于DIM层次表,是否完全记录后续分析或统计所需的每个维?
除了固定层以外,当然还有临时票(TEM)。
阿里/华为的数据仓库数据分级:操作数据层(ODS)、明细数据层(DWD)、汇总数据层(DWS)和应用数据层(ADS),维度表(DIM); 操作数据层、明细数据层、汇总数据层都是公共数据层。
此外,涉及表时,需要充分考虑这张表后续是哪个角色的同学使用,表是否足够易用?是否内容冗余?是否安全?
- 业务线的同学是否能够通过几条简单的SQL语句,拿到数据结果?
- 可以通过单张表格统计到数据还是需要多表关联获取?
- 单张表是不是内容冗余,是否会影响查询效率?
- 多表关联时,是否会有业务理解上的坑,e.g.多表间的字段是一对一,一对多,还是多对多,如何让使用者清晰的理解?
- 表中是否涉及敏感的字段,比如金额等,使用群体是否有足够的权限获取这些信息?
2. 元数据管理
元数据及应用也是数据仓库的重要组成部分,它是描述数据的数据(data about data),描述数据的属性信息,可以帮助我们非常方便地找到他们所关心的数据。
元数据记录了哪些信息?
- 数据的表结构:字段信息、分区信息、索引信息等;
- 数据的使用&权限:空间存储、读写记录、修改记录、权限归属、审核记录等其他信息;
- 数据的血缘关系信息:血缘信息简单的说就是数据的上下游关系,数据从哪里来到哪里去?我们通过血缘关系,可以了解到建立起生产这些数据的任务之间的依赖关系,进而辅助调度系统的工作调度,或者用来判断一个失败或错误的任务可能对哪些下游数据造成影响等等;而在数据排查过程中也可以帮助我们定位问题。
- 数据的业务属性信息:记录这张表的业务用途,各个字段的具体统计口径、业务描述、历史变迁记录、变迁原因等。
这部分数据多是我们手动填写,但却能大大提升数据使用过程中的便利性。
3. 离线数据仓库&实时数据仓库
此外,根据数据实时性,数据仓库可以分为离线数据仓库、实时数据仓库。
- 离线数据仓库主要记录t-1以上的数据,以天、周、月数据计算为主;
- 实时数据仓库是随着人们对实时数据展示、分析、算法的需求而出现的。
4. 总结
数据处理过程是数据产品经理 产出报表、分析报告耗时最久的部分,了解数据仓库的概念&关键点,有助于我们清晰、有效的处理数据,提高工作效率,将更多的时间用于业务洞察。
相关数据产品文档:
- 埋点技术
- 埋点通用的事件模型
本文由 @ cecil 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自 Pexels,基于 CC0 协议
1.《【dwd022】从数据产品经理的角度谈数据处理》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《【dwd022】从数据产品经理的角度谈数据处理》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/gl/2482743.html