中台问道｜30+实战意见领袖观点集锦

有关数据中台的观点如今可以说是遍地开花，其中难免存在不少碰撞、争议，渐迷人眼，我们邀请到30+业内实战专家，云集数据中台实战意见领袖年度观点，深度探讨中台趋势、中台建设、行业场景实践中遇到的困惑与难题，为止步不前、难以落地的你答疑解惑。

趋势篇：数据中台发展方向

从中国数据中台市场的发展来看，在经历了“火” 与 “冰” 的磨炼之后，中台市场迎来理性增长期，而未来将走向何方，又有哪些新的发展趋势呢？

Q1:数据中台未来将走向何方？

云原生：云原生是当下最为确定的技术趋势。存算分离、微服务、ServerLess等核心技术要素驱动数据中台走向云原生，此外，企业客户对数据安全、合规数据合作技术等需求和关注度增强，云原生天然具备的对象体系、容器化编排、跨云多域数据治理等技术属性，都驱动数据中台走向云原生。

数智融合：即构筑数据治理和AI开发的统一底座，将AI算法模型植入数据治理，高质量数据反哺AI开发能力，让数据和人工智能相互作用。

泛中台化：业务场景需求的解决方案/产品趋于“中台化”，以数据中台为基础的中台体系不断丰富，数据中台理念逐渐完善，相关产品、规范、以及标准也趋向统一，大数据项目纷纷与数据中台结合，数据中台开始从概念热点向项目起点转变。

—— 观点摘录于艾瑞咨询发布《2022中国数据中台行业研究报告》

Q2:数据智能如何与数据中台深度融合？

数据中台的建设，除了要有具备丰富行业经验的技术团队之外，还要有一套健全的、经受过大量项目的沉淀与检验的产品与工具，数据中台的最终效果和建设成本将取决于这套产品工具的自动化、智能化程度，所以通过人工智能技术来优化和改造数据中台也将成为重要的趋势。

一方面，Data for AI。由于传统数仓或者湖仓分离架构让数智融合和企业敏捷决策变得困难，数据中台可以通过对元数据统一管理，解决传统数据分析与AI模型间的“数据搬家”问题，打通数据分析与AI模型引擎，提升数据驱动决策的准确性和可信性，比如自然语言生成、问答机器人、知识图谱等等，有利于智能模型的训练和应用的创新。

另一方面，AI for Data。将人工智能算法模型的能力植入到数据治理，通过机器学习自动发现数据管理的规则，可以让数据中台更加敏捷和高效，目前已在数据模型管理、元数据管理、主数据管理、数据安全等多场景中广泛应用。

—— 观点摘录于艾瑞咨询发布《2022中国数据中台行业研究报告》

Q3：云原生数据中台是追赶风口or业务驱动？能解决什么问题？

云原生数据中台一定是未来趋势，但是并不是一蹴而就的，还需要一个长期的过程。

降低存算成本：传统大数据架构，缺少计算资源时需要扩充服务器，会连带部署存储资源，造成资源浪费。存算分离有助于平衡成本与效率，是大数据低成本落地的重要保障，也将是真正意义上云原生的显著特征。未来，数据中台的数据存储量剧增，且作业高吞吐高并发，对存算分离的要求明显高于其他应用领域，数据中台中的重要组件，如MPP及智能湖仓等，都将遵循存算分离架构。

加速业务迭代：传统单体架构应用开发模式很难根据业务的需要进行弹性伸缩，做到数据应用的快速迭代，通过微服务架构结合CI/CD等技术，可缩短应用开发周期，提高软件的开发、测试、生产和发布效率。

保障数据安全：企业客户对数据安全的关注度不断提升，对数据安全、合规数据合作技术等需求增强。云原生天然具备的对象体系、容器化编排、CI/CD（持续集成持续交付）、跨云多域数据治理等技术属性具有资源和数据的隔离性，能够提供强大的数据安全保障，满足企业对于数据安全的高要求。

提升运维能力：云原生时代，运维流程相比传统运维自动化、智能化程度上更加标准、高效，可以以微服务的架构形式去开发应用功能，以敏捷的方式去完成持续的交付和集成，通过Devops实现自动发布和稳定高效的系统运维，实现数据能力的共享和复用。

—— 工信一所数据要素委员专家团特聘专家许锡彬

技术篇：数据中台行业技术趋势

数据中台产业发展过程中，涌现出大量新的数据应用技术，很多新概念爬上了Gartner曲线，比如湖仓一体、数据网格、数据编织、dataops，技术篇讨论新技术如何赋能数据中台。

Q1：湖仓一体：数据平台一体化趋势新起点

湖和仓是大数据架构两种设计取向，在湖仓一体出现前是并行存在。数据湖优点是能够保障数据完整性，灵活度高，但由于它的包容性强，可存储任何形式和格式的数据，数据不够规范，一旦没有治理好容易变成数据沼泽，维护成本较高；而数据仓库存储的都是结构化数据，支撑业务决策的效率更高，其特点是需要事先建模，这也意味着数据仓库的启动成本要高于数据湖，且难以快速支持业务的变化。由于两者各自特有的优势和局限性，伴随企业数据需求不断变化，经常会陷入到架构选择的困境。

湖仓一体简单理解是打通数仓和数据湖两套体系，构架一套有机的大数据技术生态体系，在数据湖低成本的数据存储架构之上，弥补Hadoop下数据湖实时处理数据的缺失，降低事后数据治理难度；又继承了数据仓库的数据处理和管理功能，提供实时处理多引擎、多数据类型能力；可以兼顾数据湖的灵活性和云数据仓库的成长，能够降低大数据分析的技术复杂度，同时满足了用户对性能和易用性的更高要求。

数据中台建设在过去多采用湖仓分离的方式，极易造成重复的数据开发成本，以及两套存储共存数据冗余、数据不一致等风险。选择湖仓一体作为更适用的数据存储架构，可以规避上述问题，具备完善的数据存储及高性能的联机处理能力。

——观点摘录于《湖仓一体会成为企业的必选项嘛？》“InfoQ”(微信公众号：infoqc ）

Q2：Dataops:数据中台落地实践过程中的加速器

数据中台项目失败的原因多数离不开：数据组织形式越来越复杂，数据链路变长，团队协作要求变高，新的数据需求变多……亟需新的开发与协作模式来提升数据供给效率，而Dataops是面向数据全生命周期，以价值最大化为目标的最佳实践，聚焦于从数据需求输入到交付物输出的全链路过程，可以以一种更敏捷的方式提高企业数据开发、交付和协同效率，提高数据分析的质量并缩短数据分析的周期，快速满足分析需求和业务需求。

其次，虽然Dataops与数据中台两者在解决问题的方向上类似，都希望能更快、更好地实现数据价值，实现数字化运营。但前者强调的是数据应用的开发和运维效率提升，后者强调的是数据统一管理和避免重复造轮子，是对数据能力的抽象、共享以及复用，也就是说数据中台描述最终目标，而DataOp能够为其提供路径保障的方法论，帮助数据应用的开发和管理更加高效，是数据中台区别于传统企业数据架构的核心差异。

未来，Dataops因其快速敏捷、开放协同的特性，能够助力数据中台建设获得更高质量的数据，更智能的数据管理，加快企业数据洞察的步伐。

——观点摘录于《为什么说DataOps是数据中台的拐点？》（“新眸”微信公众号xinmouls)

Q3：数据编织：连接数据的管理架构

统一语义和持续洞察力：数据编织使用先进的人工智能、机器学习算法连接不同数据源的数据以及数据之间的业务关系，建立知识图谱，提供持续分析能力，使业务用户能够轻松发现和访问相关的数据，企业能更容易地获得高质量的数据，从而能更快和更精确地洞察企业数据。

统一治理和审计合规：数据编织“连接”数据而非“搬运”数据，省去复杂、耗时、耗神的ETL/ELT过程。本地化管理企业内部、外部、云端的数据资产的元数据；通过AI/ML技术，自动化应用策略、使得审计合规性和识别系统中的潜在数据漏洞变得更加容易；通过整合所有数据环境，落地整体数据治理和安全流程集中且一致的治理体系。

自动化和动态集成能力：数据编织的设计和部署天然具备对跨分布式的多种基础设施环境的数据进行集成的能力，为孤立的数据源提供自动创建数据集成管道，支持ETL、web服务、API接口等多种集成管道。通过预定义的数据集成策略，自助、动态获取最新的数据资产，让企业的数据资产可见、可查、可管、可用。

自动编排和统一数据生命周期：数据编织采用人工智能、机器学习、数据湖以及其他平台和技术，对不同数据源进行自助编排，确保企业全面了解所有数据环境中的数据管道并支持数据的统一生命周期管理，包括数据驱动应用的开发、运营、测试和生产发布。

据Gartner公开报道显示，数据编织使数据管理工作量减少70%，并加快数据价值实现。

—— 观点摘录于《你知道数据治理，你听过数据编织嘛？》“谈数据”（微信公众号learning-bigdata）

能力篇：建设数据中台必备能力

数据中台类产品能力源泉即是业务数据，这些数据来自业务，又反哺业务，在循环、流通、处理、分析过程中形成数据资产与业务资产，并共享开放给内外部应用使用，整个过程可以总结为：业务数据化、数据资产化、资产服务化、服务业务化四个环节，能力篇将选择用户最关心的必备能力进行探讨。

Q1：实时数仓建设如何进行技术选型？

随着业务规模增长，企业对于数据的实时性要求会越来越强，甚至将借用大数据技术来直接解决业务问题，流批计算的常见架构主要有Lambda架构、Kappa、flflink+数据湖的Kappa架构。

Lambda架构是将流与批分开，架构复杂，需要搭建两套环境、写两份相同逻辑的代码，造成整体运维成本、资源需求都将翻倍以及数据口径不一致的问题，但由于批量计算的成熟稳定的基座，其架构比较稳定，建议应用在业务简单，且以流式数据为主数据流的大数据架构；

Kappa架构是仅使用流计算处理引擎的模式，架构简单，不同的数仓层级中使用Kafka消息队列来缓存数据，这种架构的好处是只需要编写一套代码即可以完成数据处理，但kafka存储成本高且数据量大，无法支持海量数据存储及高效的OLAP查询。

使用数据湖替代Kappa架构中Kafka地位的混合架构。首先，数据湖本身的ACID特性，能保证数据的准确性；其次，虽然在实时性上，相对Kappa架构较慢，但仍然可以提供毫秒级的数据计算分析；第三，数据湖存储本身提供表格形式供应用读取，对SQL语言兼容性强，所以在任何数仓层级的数据都可以被随时消费使用；第四，部分数据湖技术如Iceberg还可以直接对接Presto/Trino计算引擎，可以快速支持实时数据即席分析的场景，对于数据分析人员更友好，但对数据基础设施和数据处理技能要求高，适合能力较为成熟的研发团队。

—— 工业信息安全发展研究中心数据专委会高级专家白松

Q2：如何统一数仓层建模流程及规范？

统一数仓层建设过程以维度建模为理论基础，包含构建总线矩阵，划分业务板块，定义数据域、业务过程、维度、原子指标、修饰类型、修饰词、时间周期、派生指标，确定维度表、事实表的模型设计等流程，呈现结果是一套数据体系，能够覆盖全域数据，保障数据准确一致。

数据调研，梳理业务过程：了解业务系统的业务，收集分析师、运营人员对数据或者报表需求，面向业务分析，整理所有的业务过程，进行适当的拆分。

数据域划分：数据域是DW层的顶层划分，是对企业业务的抽象提炼，面向业务分析，包含当前所有业务需求，也便于未来扩展。比如：采购域、库存域、商品域等。包含数据调研、业务分类、数据域定义、构建总线矩阵四个阶段。

明确指标，规范定义：明确原子指标和派生指标，构建一致性逻辑维度及维度属性，构建一致性度量和指标，一致性指标定义就是定义原子指标、修饰词、时间周期和派生指标的含义、类型、命名等，被用于模型设计，是建模的基础；

模型设计-维度表：维度设计的核心是确定维度属性，维度属性尽可能丰富。维度属性设计中会有一些反规范化设计，把相关维度的属性也合并到主维度属性中，达到易用减少关联的效果。维度设计主要包括选择维度、确定主维表、梳理关联维表、定义维度属性等过程。

模型设计-事实表：事实表通过粒度和事实度量来描述业务过程，是统一数仓层建设的主要产出物，事实表就包含表达粒度的键值部分、事实度量及退化的维度属性。一切数据应用和分析都是围绕事实表来展开的，适当冗余的事实表能够提高数据易用性并降低平台计算成本。

代码开发，部署运维：数据业务逻辑实现；生成ETL任务，运行状态监控。

—— 畅销书《数据中台:让数据用起来》作者付登坡

Q3：数据治理体系如何设计？

按阶段可分为基于规则的数据质量管控(RQC:The Regulation-Based Quality Control)、基于成本的数据价值运营(CVO:The Cost-Based Value Operation）治理模式，前者核心关注如何让数据内容本身变得“可信”，而后者更加关注如何让数据的价值运营变得“可度量”。

数据治理整体框架围绕“115N”进行开展。即以1套平台为支撑，构建5大治理体系，承载N个业务场景，实现1个目标。五大治理体系即管控体系、标准体系、质量体系、安全体系、资产体系。

管控体系：是组织保障、制度保障和流程保障，需要明确各级数据管理部门，数据使用部门在数据治理中的活动职责，建立数据全生命周期流程。

数据标准：是保障数据内外部使用和交换的一致性和准确性的规范性约束需要，需要完善数据相关的标准、规范建立数据标准迭代管理机制，保障数据标准的有效性。

质量体系：目的是保证数据的应用效果，需要建立数据质量评价规则体系，开展数据质量评价，建立数据质量监控机制，完善数据质量问题的闭环管理。

安全体系：数据分类分级是数据安全管理的基础，保障数据安全共享，需要建立数据分类分级管理规范，明确数据脱敏加密管理方案，识别敏感数据，确保敏感数据被保护。

资产体系：建设目的是为了让数据好找、好用，需要构建数据资产目录，让数据可见、可用完善数据资产的共享机制，充分发挥数据资产价值。

—— 数据治理专家、DAMA数据治理工程师CDO首席数据官培训讲师蒋梦琴

Q4：如何进行数据质量管理？

数据质量盘点：对于已确权的数据集，开展数据质量识别工作，掌握数据集的基本情况及可能出现的情况。

设计量化指标：根据数据识别的结果，对数据质量的标准进行设定，对目标进行量化，给出数据质量的维度、评估指标和度量的方法，以便开展后续的数据质量评估工作。

明确数据质量规则：对数据集的计算口径是否符合规则进行监控。如果发现数据集不满足要求，则及时向数据责任部门和同事发出数据质量问题告警。同时建立缺陷数据纠错机制，完善并实施数据质量规则，以达到最好的预期。

异常数据监控：通过数据集成流程来集成数据质量规则和活动，这对提高数据资产的准确度和价值至关重要。检查、分析数据质量的异常情况，并对规则进行验证，并确定、评估数据质量的服务水平，根据评估结果完善规则。

数据质量可视化：对照目标，监测数据质量，并形成报告。管理监控数据质量，与预设目标进行对比，并形成数据质量报告，使数据责任部门的同事能够及时掌握数据的质量问题。

组织体系保障：建立数据质量管理的组织体系并为具有适当技能的人员分配角色以确保数据质量，如数据治理委员会、数据分析师、数据管理员，还可制定数据质量绩效考核，提升数据质量管理意识。

—— 数据资产管理专家DAMA数据治理工程师、项目管理专家姚秀清

Q5：保障数据安全，如何推进数据分类分级管理？

“人工+智能”实施数据分类分级：利用知识图谱、数据标签技术进行系统自动化扫描可以简化数据分类分级的过程，根据预定参数对数据进行分类和定级，但较为复杂的数据需要人为手动定义。

加强IT与业务合作：数据安全治理需要以业务为基础，技术为支撑，IT人员能够实现标准化或自动化识别的流程，从而简化数据分类分级过程；业务人员深度参与，能够提供业务视角的建议和指导。

为不同的分类分级定义不同安全策略：基于企业数据的分类分级制定数据访问控制策略，形成敏感分级数据与用户角色的访问控制矩阵，为数据的安全合规使用提供支撑。

尽量缩小敏感数据流转路径：企业数据安全治理环境复杂多变，对敏感数据的防泄漏变得极其困难，企业应当遵循“最小可用”原则，尽量减少敏感数据存储位置的数量并及时删除无关的数据。

创建数据安全保护的文化：加强数据安全意识宣贯，明确数据的管理和使用流程，强调数据的隐私和安全对企业和个人的重要意义，形成对数据隐私和安全的整体认知和数据文化。

—— 观点摘录于《数据安全治理：数据的分类分级指南》（“谈数据”微信公众号learning-bigdata）

Q6：如何兼顾数据流通效率和数据安全合规边界？

数据流通依旧面临着数据资产梳理和分类分级难度大、数据滥用、数据污染、数据防护压力加大等问题，如何在保证数据安全的前提下促进数据要素有效流动和高效释放，成为数字中国建设中必须突破的核心问题。应围绕数据流通在数据层面、活动层面、设施层面的需求，充分发挥政府、行业、企业各方资源和技术优势，推动形成多方协同、齐抓共管的治理格局。

政府部门应通过政策引领等方式，在流通数据层，明确各类各级数据差异化的流通条件和安全要求，并结合流通利用和安全保护需求制定流通数据负面清单；在流通活动层，探索分级分层市场准入、“沙盒”监管等创新机制，适度给予创新容错空间；在流通设施层，建立交易平台准入评估机制，探索建设跨区域一体化数据流通平台、“数据银行”等基础设施，搭建安全流通环境。

行业机构应结合各领域特点，在流通数据层，加快制定数据分类分级标准规范，开展非结构化数据、重要数据自动识别、分析、达标等技术攻关；在流通活动层，开展安全多方计算、联邦计算、隐私计算等流通安全技术攻关；在流通设施层，大力发展面向流通需求的安全检测、评估、认证等专业服务。

企业主体应全面落实国家和行业数据分类分级管理要求，在流通数据层，积极应对新技术提升数据分类分级的及时性和准确度；在流通活动层，建设内部数据流通安全一体化的管理平台，强化政企协同联动；在流通设施层，定期开展流通设施安全监测评估，持续提升安全保护能力。

—— 观点摘录于中国信息通信研究院副院长魏亮2022中国互联网大会数据安全论坛演讲内容

实践篇：数据中台创新应用场景

Q1：数据中台未来将走向何方？

找风险：审计风控专家和业务专家协同合作，梳理好整个企业的风险管控点，对风险进行分类分级管理，聚焦于企业战略目标相关的核心风险，并构建企业风险管理的风险业务逻辑规则。

盘数据：在梳理好企业风险点，形成企业风险管理的标准风险库或风险地图后，需要数据开发人员介入,盘点风险相关的数据（体量、覆盖范围、数据质量等），形成风险数据资产，进一步判断这些风险数据是否能够支持风险指标与风险模型的开发。

建模型：结合风控专家和业务专家梳理的风控业务逻辑，数据开发人员转化成风险指标，进而通过规则引擎等工具配置风控模型，以支持风险的自动预警。

管风险：包括模型管理、风险预警、风险分发、风险处理、整改追责、自查纠偏。不仅仅是给审计风控部门使用，同时会根据风险管理级别和响应模式，将预警风险同步给业务部门，实现风险的信息共享，达到赋能业务的目标。

供保障：为保证审计风控数字化转型有效落地，切实产出业务价值，除了提供数字化工具，还需要从组织层面落实数字化绩效考核、营造数字化审计风控氛围、提供数据分析培训，构建三道防线协同机制等动作来保障审计风控数字化落地效果。

—— 工信部两化融合管理标准化技术委员会工作组成员汪国强

Q2：汽车工厂边缘数仓场景如何建设？

边缘数仓是基于边缘计算实现工厂端的数据汇聚拉通，通过维度建模构建工厂端一体化数据湖仓，以下以C汽车集团建设经验为例。

C集团汽车主机厂的制造工厂分布在全国各地，制造工厂数据量庞大，非结构化数据多，如采用常规的集中式数据管理，存在数据传输成本高（专线传输），数据实时性无法保障，数据安全隐患等风险，所以需要在制造工厂端构建边缘数仓，对工厂的数据进行统一处理，满足工厂端的数据管理，快速响应业务。

基于经典数仓建模方法维度建模构建工厂端一体化数据湖仓，集合汽车制造工厂的对象形成人、机、料、法、环、测、能数据主题域，将制造工厂的MES系统，LMS系统，MQS系统，物联系统，线下填报系统等全厂二十多个系统的数据快速汇聚到边缘数仓。

通过汽车制造工厂边缘数据仓建设，形成了一套高效、先进、易用、稳定的制造工厂边缘仓数据开发及管理工具，实现了工厂端数据集中、业务边缘计算、数据轻度汇总，向大数据平台提供开放式接口，实现数据互通互联，为汽车制造企业深化数字化转型奠定了基础。

——制造行业专家、供应链管理师高级项目管理师张瑞红

中台问道｜30+实战意见领袖观点集锦

智能体

大模型

数据中台

数字化转型

数据资产

数栖大会

白皮书

云栖大会

数字化