更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群
导读:经过十多年的发展,数据治理在传统行业以及新兴互联网公司都已经产生落地实践。字节跳动也在探索一种分布式的数据治理方式。本篇内容来源于火山引擎超话数据直播活动的回顾,将从以下四个部分展开分享:
字节的挑战与实践
数据治理的发展与分布式
分布式自治架构
分布式自治核心能力
字节的挑战与实践
首先来看一个问题:“一家公司,数据体系要怎么搭建?”
-
方案一: 整体规划,系统架构驱动
-
方案二:问题出发,业务价值驱动
在字节跳动,我们选择的是方案二,即从业务遇到的问题出发,重视落地结果与业务过程,去解决实际的治理问题。
基于这个理念,在数据治理过程中,字节跳动也面临以下三个挑战与机遇:
业务特点:业务发展快、场景丰富、数据量大且形态各异。业务的线上服务及创新,都对数据有较强的依赖,核心业务数据延迟,质量问题将直接影响业务表现及发展。
组织特点:扁平化的组织模式,分布式的组织管理。无行政手段或强组织约束,也无全局治理委员会,且数据从采集到应用全部的生产流程,没有全局规范,业务团队需要自主制定策略并落地。
文化特点:OKR 拆解与对齐文化,业务团队有充足的目标定义与拆解权限,且任何人都可能有动机、有角色、甚至有权限去进行数据治理,导致数据治理的业务流程复杂
字节数据治理演进阶段
字节数据治理演进阶段分为 6 个阶段:
-
业务第一原则:坚持业务第一原则,解决业务实际遇到的治理痛点
-
优先稳定建设:优先解决交付稳定,保障数据链路与产出稳定,减少交付延迟
-
保障数据质量:核心链路质量管控,配置强质量规则,自动熔断,避免全链路数据污染;加强事前检查,从源头加强质量控制;完善事后评估,为每一张表建立健康档案,持续改进。
-
关注数据安全:冗余权限识别,消除授权风险;数据分类分级,风险定义与多策略控制,减少安全风险
-
重视成本优化:基于多种规则的与完备的治理元数仓,提供低门槛的治理产品能力,快速优化存储
-
提高员工幸福感:在帮助业务完成数据治理的后,还需要考虑团队的负载压力,报警治理,降低员工起夜率;归因分析,快速排查修复故障。
在这里,再介绍字节特色的“0987”量化数据服务标准。这四个数字分别指的是:稳定性 SLA 核心指标要达到 0 个事故,需求满足率要达到 90%,数仓构建覆盖 80% 的分析需求,同时用户满意度达到 70%。按照这个高标准来要求自己,同时这也是一种自监管的机制,能够有效的防止自嗨,脱离业务需求和价值。
字节的部分场景实践
下面通过两个例子为大家介绍数据治理在字节的场景实践。
案例一:
-
问题:字节跳动内部 2019 年到 2020 年间,双月内事故数量较多,对业务造成一定影响,且收敛困难,每天都有告警、起夜、对正常开发进度造成影响。
-
解决方案: 采用了分布式用户自治的 SLA 治理,通过数据分级保障目标管理,在各业务内部进行【拉齐链路-数据分级-广泛共识-系统管理】的行动闭环,系统化保障目标传递和落地。
-
效果: 截止 2020 年中,事故以每双月 30%环比下降,在 1 年内达到稳定性问题彻底收敛。
案例二:
-
问题:抖音的实时数仓治理人员的精力分散,以被动的运动式、“救火”式的工作模式为主。协同效率低,人力投入巨大,缺少可持续性。
-
解决方案: 覆盖质量、成本、SLA、安全等治理方向,以业务评估体系,构建治理方案进行例行诊断,对存量问题进行识别和派发,形成一套【评估->识别->规划->执行->复盘】业务内部分布式自治的治理机制。
-
效果: 从 21 年至今,治理人员的精力彻底从”运动式“治理的模式中解放出来,更多精力会集中在监督执行与规则优化中,团队起夜率降低 30%。质量保障覆盖率达到 100%。双月存储优化均在 20+PB。
数据治理的发展与分布式
众所周知,有很多机构都分享了对数据治理的定义,这里简单分享一下
国际数据管理协会(DAMA): 数据治理是对数据资产管理行使权力和控制的活动集合
IBM:数据治理是对企业中的数据可用性、相关性、 完整性和安全性的全面管理。它帮助组织管理 他们的信息知识和作为决策依据
维基百科对数据治理的定义:数据治理是一个涉及全体组织的数据管理概念,通过数据治理,确保在数据的整个生命周期中拥有高数据质量的能力,也是对业务目标的支持。数据治理的关键的重点领域包括可用性、一致性、数据完整性和数据安全性,也包括建立流程来确保整个企业实施有效数据管理。
在传统的数据治理方法论与定义中,注意到他有以下共性特点,同时也是现在大多数公司的实践路径,即: