有关数据中台的观点如今可以说是遍地开花,其中难免存在不少碰撞、争议,渐迷人眼,我们邀请到30+业内实战专家,云集数据中台实战意见领袖年度观点,深度探讨中台趋势、中台建设、行业场景实践中遇到的困惑与难题,为止步不前、难以落地的你答疑解惑。
趋势篇:数据中台发展方向
从中国数据中台市场的发展来看,在经历了“火” 与 “冰” 的磨炼之后,中台市场迎来理性增长期,而未来将走向何方,又有哪些新的发展趋势呢?
Q1:数据中台未来将走向何方?
云原生:云原生是当下最为确定的技术趋势。存算分离、微服务、ServerLess等核心技术要素驱动数据中台走向云原生,此外,企业客户对数据安全、合规数据合作技术等需求和关注度增强,云原生天然具备的对象体系、容器化编排、跨云多域数据治理等技术属性,都驱动数据中台走向云原生。
数智融合:即构筑数据治理和AI开发的统一底座,将AI算法模型植入数据治理,高质量数据反哺AI开发能力,让数据和人工智能相互作用。
泛中台化:业务场景需求的解决方案/产品趋于“中台化”,以数据中台为基础的中台体系不断丰富,数据中台理念逐渐完善,相关产品、规范、以及标准也趋向统一,大数据项目纷纷与数据中台结合,数据中台开始从概念热点向项目起点转变。
—— 观点摘录于艾瑞咨询发布《2022中国数据中台行业研究报告》
Q2:数据智能如何与数据中台深度融合?
数据中台的建设,除了要有具备丰富行业经验的技术团队之外,还要有一套健全的、经受过大量项目的沉淀与检验的产品与工具,数据中台的最终效果和建设成本将取决于这套产品工具的自动化、智能化程度,所以通过人工智能技术来优化和改造数据中台也将成为重要的趋势。
一方面,Data for AI。由于传统数仓或者湖仓分离架构让数智融合和企业敏捷决策变得困难,数据中台可以通过对元数据统一管理,解决传统数据分析与AI模型间的“数据搬家”问题,打通数据分析与AI模型引擎,提升数据驱动决策的准确性和可信性,比如自然语言生成、问答机器人、知识图谱等等,有利于智能模型的训练和应用的创新。
另一方面,AI for Data。将人工智能算法模型的能力植入到数据治理,通过机器学习自动发现数据管理的规则,可以让数据中台更加敏捷和高效,目前已在数据模型管理、元数据管理、主数据管理、数据安全等多场景中广泛应用。
—— 观点摘录于艾瑞咨询发布《2022中国数据中台行业研究报告》
Q3:云原生数据中台是追赶风口or业务驱动?能解决什么问题?
湖仓一体简单理解是打通数仓和数据湖两套体系,构架一套有机的大数据技术生态体系,在数据湖低成本的数据存储架构之上,弥补Hadoop下数据湖实时处理数据的缺失,降低事后数据治理难度;又继承了数据仓库的数据处理和管理功能,提供实时处理多引擎、多数据类型能力;可以兼顾数据湖的灵活性和云数据仓库的成长,能够降低大数据分析的技术复杂度,同时满足了用户对性能和易用性的更高要求。
数据中台建设在过去多采用湖仓分离的方式,极易造成重复的数据开发成本,以及两套存储共存数据冗余、数据不一致等风险。选择湖仓一体作为更适用的数据存储架构,可以规避上述问题,具备完善的数据存储及高性能的联机处理能力。
——观点摘录于《湖仓一体会成为企业的必选项嘛?》“InfoQ”(微信公众号:infoqc )
Q2:Dataops:数据中台落地实践过程中的加速器
数据中台项目失败的原因多数离不开:数据组织形式越来越复杂,数据链路变长,团队协作要求变高,新的数据需求变多……亟需新的开发与协作模式来提升数据供给效率,而Dataops是面向数据全生命周期,以价值最大化为目标的最佳实践,聚焦于从数据需求输入到交付物输出的全链路过程,可以以一种更敏捷的方式提高企业数据开发、交付和协同效率,提高数据分析的质量并缩短数据分析的周期,快速满足分析需求和业务需求。
其次,虽然Dataops与数据中台两者在解决问题的方向上类似,都希望能更快、更好地实现数据价值,实现数字化运营。但前者强调的是数据应用的开发和运维效率提升,后者强调的是数据统一管理和避免重复造轮子,是对数据能力的抽象、共享以及复用,也就是说数据中台描述最终目标,而DataOp能够为其提供路径保障的方法论,帮助数据应用的开发和管理更加高效,是数据中台区别于传统企业数据架构的核心差异。
未来,Dataops因其快速敏捷、开放协同的特性,能够助力数据中台建设获得更高质量的数据,更智能的数据管理,加快企业数据洞察的步伐。
——观点摘录于《为什么说DataOps是数据中台的拐点?》(“新眸”微信公众号xinmouls)
Q3:数据编织:连接数据的管理架构
Q1:实时数仓建设如何进行技术选型?
随着业务规模增长,企业对于数据的实时性要求会越来越强,甚至将借用大数据技术来直接解决业务问题,流批计算的常见架构主要有Lambda架构、Kappa、flflink+数据湖的Kappa架构。
Lambda架构是将流与批分开,架构复杂,需要搭建两套环境、写两份相同逻辑的代码,造成整体运维成本、资源需求都将翻倍以及数据口径不一致的问题,但由于批量计算的成熟稳定的基座,其架构比较稳定,建议应用在业务简单,且以流式数据为主数据流的大数据架构;
Kappa架构是仅使用流计算处理引擎的模式,架构简单,不同的数仓层级中使用Kafka消息队列来缓存数据,这种架构的好处是只需要编写一套代码即可以完成数据处理,但kafka存储成本高且数据量大,无法支持海量数据存储及高效的OLAP查询。
使用数据湖替代Kappa架构中Kafka地位的混合架构。首先,数据湖本身的ACID特性,能保证数据的准确性;其次,虽然在实时性上,相对Kappa架构较慢,但仍然可以提供毫秒级的数据计算分析;第三,数据湖存储本身提供表格形式供应用读取,对SQL语言兼容性强,所以在任何数仓层级的数据都可以被随时消费使用;第四,部分数据湖技术如Iceberg还可以直接对接Presto/Trino计算引擎,可以快速支持实时数据即席分析的场景,对于数据分析人员更友好,但对数据基础设施和数据处理技能要求高,适合能力较为成熟的研发团队。
—— 工业信息安全发展研究中心数据专委会高级专家 白松
Q3:数据治理体系如何设计?
按阶段可分为基于规则的数据质量管控(RQC:The Regulation-Based Quality Control)、基于成本的数据价值运营(CVO:The Cost-Based Value Operation)治理模式,前者核心关注如何让数据内容本身变得“可信”,而后者更加关注如何让数据的价值运营变得“可度量”。
数据治理整体框架围绕“115N”进行开展。即以1套平台为支撑,构建5大治理体系,承载N个业务场景,实现1个目标。五大治理体系即管控体系、标准体系、质量体系、安全体系、资产体系。
管控体系:是组织保障、制度保障和流程保障,需要明确各级数据管理部门,数据使用部门在数据治理中的活动职责,建立数据全生命周期流程。
数据标准:是保障数据内外部使用和交换的一致性和准确性的规范性约束需要,需要完善数据相关的标准、规范建立数据标准迭代管理机制,保障数据标准的有效性。
质量体系:目的是保证数据的应用效果,需要建立数据质量评价规则体系,开展数据质量评价,建立数据质量监控机制,完善数据质量问题的闭环管理。
安全体系:数据分类分级是数据安全管理的基础,保障数据安全共享,需要建立数据分类分级管理规范,明确数据脱敏加密管理方案,识别敏感数据,确保敏感数据被保护。
资产体系:建设目的是为了让数据好找、好用,需要构建数据资产目录,让数据可见、可用完善数据资产的共享机制,充分发挥数据资产价值。
—— 数据治理专家、DAMA数据治理工程师CDO首席数据官培训讲师 蒋梦琴
数据质量盘点:对于已确权的数据集,开展数据质量识别工作,掌握数据集的基本情况及可能出现的情况。
设计量化指标:根据数据识别的结果,对数据质量的标准进行设定,对目标进行量化,给出数据质量的维度、评估指标和度量的方法,以便开展后续的数据质量评估工作。
明确数据质量规则:对数据集的计算口径是否符合规则进行监控。如果发现数据集不满足要求,则及时向数据责任部门和同事发出数据质量问题告警。同时建立缺陷数据纠错机制,完善并实施数据质量规则,以达到最好的预期。
异常数据监控:通过数据集成流程来集成数据质量规则和活动,这对提高数据资产的准确度和价值至关重要。检查、分析数据质量的异常情况,并对规则进行验证,并确定、评估数据质量的服务水平,根据评估结果完善规则。
数据质量可视化:对照目标,监测数据质量,并形成报告。管理监控数据质量,与预设目标进行对比,并形成数据质量报告,使数据责任部门的同事能够及时掌握数据的质量问题。
组织体系保障:建立数据质量管理的组织体系并为具有适当技能的人员分配角色以确保数据质量,如数据治理委员会、数据分析师、数据管理员,还可制定数据质量绩效考核,提升数据质量管理意识。
—— 数据资产管理专家DAMA数据治理工程师、项目管理专家 姚秀清
Q5:保障数据安全,如何推进数据分类分级管理?
“人工+智能”实施数据分类分级:利用知识图谱、数据标签技术进行系统自动化扫描可以简化数据分类分级的过程,根据预定参数对数据进行分类和定级,但较为复杂的数据需要人为手动定义。
加强IT与业务合作:数据安全治理需要以业务为基础,技术为支撑,IT人员能够实现标准化或自动化识别的流程,从而简化数据分类分级过程;业务人员深度参与,能够提供业务视角的建议和指导。
为不同的分类分级定义不同安全策略:基于企业数据的分类分级制定数据访问控制策略,形成敏感分级数据与用户角色的访问控制矩阵,为数据的安全合规使用提供支撑。
尽量缩小敏感数据流转路径:企业数据安全治理环境复杂多变,对敏感数据的防泄漏变得极其困难,企业应当遵循“最小可用”原则,尽量减少敏感数据存储位置的数量并及时删除无关的数据。
创建数据安全保护的文化:加强数据安全意识宣贯,明确数据的管理和使用流程,强调数据的隐私和安全对企业和个人的重要意义,形成对数据隐私和安全的整体认知和数据文化。
—— 观点摘录于《数据安全治理:数据的分类分级指南》(“谈数据”微信公众号learning-bigdata)
Q6:如何兼顾数据流通效率和数据安全合规边界?
数据流通依旧面临着数据资产梳理和分类分级难度大、数据滥用、数据污染、数据防护压力加大等问题,如何在保证数据安全的前提下促进数据要素有效流动和高效释放,成为数字中国建设中必须突破的核心问题。应围绕数据流通在数据层面、活动层面、设施层面的需求,充分发挥政府、行业、企业各方资源和技术优势,推动形成多方协同、齐抓共管的治理格局。
政府部门应通过政策引领等方式,在流通数据层,明确各类各级数据差异化的流通条件和安全要求,并结合流通利用和安全保护需求制定流通数据负面清单;在流通活动层,探索分级分层市场准入、“沙盒”监管等创新机制,适度给予创新容错空间;在流通设施层,建立交易平台准入评估机制,探索建设跨区域一体化数据流通平台、“数据银行”等基础设施,搭建安全流通环境。
行业机构应结合各领域特点,在流通数据层,加快制定数据分类分级标准规范,开展非结构化数据、重要数据自动识别、分析、达标等技术攻关;在流通活动层,开展安全多方计算、联邦计算、隐私计算等流通安全技术攻关;在流通设施层,大力发展面向流通需求的安全检测、评估、认证等专业服务。
企业主体应全面落实国家和行业数据分类分级管理要求,在流通数据层,积极应对新技术提升数据分类分级的及时性和准确度;在流通活动层,建设内部数据流通安全一体化的管理平台,强化政企协同联动;在流通设施层,定期开展流通设施安全监测评估,持续提升安全保护能力。
—— 观点摘录于中国信息通信研究院副院长魏亮2022中国互联网大会数据安全论坛演讲内容
实践篇:数据中台创新应用场景
Q1:数据中台未来将走向何方?
找风险:审计风控专家和业务专家协同合作,梳理好整个企业的风险管控点,对风险进行分类分级管理,聚焦于企业战略目标相关的核心风险,并构建企业风险管理的风险业务逻辑规则。
盘数据:在梳理好企业风险点,形成企业风险管理的标准风险库或风险地图后,需要数据开发人员介入,盘点风险相关的数据(体量、覆盖范围、数据质量等),形成风险数据资产,进一步判断这些风险数据是否能够支持风险指标与风险模型的开发。
建模型:结合风控专家和业务专家梳理的风控业务逻辑,数据开发人员转化成风险指标,进而通过规则引擎等工具配置风控模型,以支持风险的自动预警。
管风险:包括模型管理、风险预警、风险分发、风险处理、整改追责、自查纠偏。不仅仅是给审计风控部门使用,同时会根据风险管理级别和响应模式,将预警风险同步给业务部门,实现风险的信息共享,达到赋能业务的目标。
供保障:为保证审计风控数字化转型有效落地,切实产出业务价值,除了提供数字化工具,还需要从组织层面落实数字化绩效考核、营造数字化审计风控氛围、提供数据分析培训,构建三道防线协同机制等动作来保障审计风控数字化落地效果。
—— 工信部两化融合管理标准化技术委员会 工作组成员 汪国强
Q2:汽车工厂边缘数仓场景如何建设?
边缘数仓是基于边缘计算实现工厂端的数据汇聚拉通,通过维度建模构建工厂端一体化数据湖仓,以下以C汽车集团建设经验为例。
C集团汽车主机厂的制造工厂分布在全国各地,制造工厂数据量庞大,非结构化数据多,如采用常规的集中式数据管理,存在数据传输成本高(专线传输),数据实时性无法保障,数据安全隐患等风险,所以需要在制造工厂端构建边缘数仓,对工厂的数据进行统一处理,满足工厂端的数据管理,快速响应业务。
基于经典数仓建模方法维度建模构建工厂端一体化数据湖仓,集合汽车制造工厂的对象形成人、机、料、法、环、测、能数据主题域,将制造工厂的MES系统,LMS系统,MQS系统,物联系统,线下填报系统等全厂二十多个系统的数据快速汇聚到边缘数仓。
通过汽车制造工厂边缘数据仓建设,形成了一套高效、先进、易用、稳定的制造工厂边缘仓数据开发及管理工具,实现了工厂端数据集中、业务边缘计算、数据轻度汇总,向大数据平台提供开放式接口,实现数据互通互联,为汽车制造企业深化数字化转型奠定了基础。
——制造行业专家、供应链管理师高级项目管理师 张瑞红