数据网格101:对企业数据中最热门话题的简单概述

这也许是一个令人震惊的事实:我们生活在一个惊人的数字化转型时代,这个时代每天只会变得更加受数据驱动。原始数据令人震惊。预计到2022年,数据空间将达到97泽字节,到2025年将翻一番(!)达到181泽字节。据估计,到2025年463eb的数据每天都会被创造出来。

显然,我们的世界已经走向数字化,而疫情只会加速这一全球趋势。从银行业到生命科学再到零售业,各个经济领域的蓬勃发展的企业都在寻求更好的方法来利用大量数据。然而,企业IT领导者面临着严峻的挑战。

  • 只有32%的人实现了数据的有形价值
  • 77%的公司在其数据管道中集成多达5种不同类型的数据
  • 只有3%的数据符合基本质量标准
  • 65%的组织正在使用至少10种不同的数据工程工具

(来源:埃森哲缩小数据与价值的差距IDC, 2021年。)

当今企业数据管理的拐点

虽然许多组织都在使用传统的数据仓库和BI平台,但集中式单片模型往往会给需要发现、理解和充分利用数据的组织带来真正的摩擦。随着越来越多的数据被管理在一个集中的存储库中,通常是数据办公室或it部门承担着管理、管理和交付大量复杂数据集的压倒性责任,而这些数据集只会变得越来越复杂。

“数据网格是一种分散的社会技术方法,用于大规模管理和访问分析数据。”

- Zhamak Dehghani

数据网格的概念由Zhamak Dheghani在2019年提出,是数据管理中讨论最多的主题之一,从战略上与我们Collibra的使命相一致,帮助组织发现、理解、信任和访问他们的数据。亚愽视频通过一个新的、健壮的框架,数据网格是一种数据管理方法,它提供了一条从遗留的、集中式架构的缺点向分散的、领域驱动的大规模设计演进的路径。

这种方法通过减少数据创造者和消费者之间的摩擦来最大化数据的价值这两个组织和技术设计。这种去中心化使能器使业务域能够控制自己的业务域数据的命运通过创建易于被组织使用的高价值、值得信赖的数据产品。

灵活性是数据网格固有的,鼓励一种渐进的方法,但它需要战略承诺和投资。

数据网格原理概述

数据网格的丰富框架以四个指导原则为中心,从数据中获得最大价值:

  • 域驱动的所有权
  • 作为产品的数据
  • 自助式数据基础设施
  • 联邦计算治理

在以后的博客中,我们将更深入地探讨这些原则。现在,让我们看看为什么这些原则是相关的关键原因。

原则1:领域驱动的所有权

使用遗留架构管理分析工作负载的主要挑战之一是:通常当组织将所有内容都注入中央数据湖时,他们将数据与主题专家分开。这些主题专家拥有初始操作的业务知识和管理能力,但他们不能轻松完成自己的工作。在中央数据湖模型中,他们必须等待一个集中的数据团队为他们完成分析请求。

在数据网格模型中,专家(领域)控制数据生态系统,他们负责清理、丰富数据,并使整个组织的数据消费者可以随时使用数据。这些域所有者建立和维护数据的质量,并提供必要的事实和文档。集中式数据办公室不再需要承担这个任务。这仅仅通过将数据与业务人才结合起来消除了摩擦。

原则2:数据作为产品

数据网格组织让领域专家负责数据,然后应用产品思维来确保数据路线图满足组织的可访问性、治理和可用性需求。

“为了使分布式数据平台获得成功,领域数据团队必须将产品思维与他们提供的数据集同样严格;将他们的数据资产视为他们的产品,而将组织中的其他数据科学家、ML和数据工程师视为他们的客户。”

- Zhamak Dehghani

(来源:《如何超越单片数据湖到分布式数据网格》2019年5月)

数据网格组织将数据视为产品。数据产品有一个愿景和策略,以及一个从想法到研发、发布、维护和退役的产品路线图。这意味着域所有者将生命周期规划应用于数据。最重要的是,“数据即产品”原则确保数据始终以它为使用者带来的价值来衡量。

原则3:自助服务数据基础设施

为了扩展原则1和原则2,数据网格模型利用了自助服务数据基础设施,因此业务领域无需管理计算、网络、安全性和存储需求的底层复杂性。云技术使这一切变得非常可行。

这个基础设施的最终表达是通过api提供的,这些api促进了高度自动化的数据生产和消费。通过这种方式,数据网格组织为域所有者抽象了复杂性,并减少了数据消费者的摩擦。当数据产品可以无缝地开发、共享和消费时,组织就可以真正促进创新。然而,俗话说,“冰冻三尺,非一日之寒”。

了解Collib亚愽视频ra如何帮助您迈出数据网格的下一步。读白皮书,“不要淹没在你的数据湖中。”

原则4:联邦计算治理

数据领域将继续发展,每个组织的数据生态系统也将继续发展。他们的数据智能和治理策略也必须如此。虽然去中心化是数据网格模型的关键,但良好的治理对于安全、成功的企业至关重要。数据网格组织使用联合方法来培养企业范围内的权限特定于领域的需求和需求。数据基础设施所有层的自动化和集成是实现大规模策略、分类、定义、安全性和质量的关键。

数据网格使数据在数据驱动的世界中的价值最大化

耗时。容易出错。不可持续的。无法扩展。如果您组织中的数据管理听起来像这样,那么数据网格模型可能正是您所需要的。

数据网格模型旨在分散数据平台和IT团队的大部分繁重工作,它将数据管理的责任转移到各个业务领域。有了域数据所有权,具有深厚专业知识和数据知识的真正的管理人员实际上控制着数据。业务领域团队可以专注于确保数据是干净的、值得信赖的,并且始终可用来支持业务敏捷性,而不是沸腾数据海洋。现在,构建以自助服务为优先级的数据管理体系结构的企业可以让数据消费者在需要时快速访问正确的数据。

“我们是数据网格的忠实信徒,”我们的首席执行官Felix Van de Maele说告诉Datanami在最近的一次采访中。“我们必须接受这样一个事实,即要大规模地做好数据,就需要进行分布。数据网格通过减少数据创造者和消费者之间的摩擦来最大化数据的价值。”

数据网格是组织的游戏规则改变者,它提供了一个框架来消除瓶颈,并使业务领域能够以企业规模和速度生成和管理数据。在接下来的几周里,我们将在Collibra博客上分享更多关于这四个数据网格原理的细节。亚愽视频

想了解关于实现数据网格策略的更多信息吗?

看视频!

相关资源亚博 在线

白皮书

数据网格:不要淹没在你的数据湖中

博客

数据网格:两张通往数据天堂的门票

电子书

Collibra数据智能亚愽视频云介绍

查看所有资源亚博 在线

更多像这样的故事

2022年7月12日4最小值

数据网格101:领域驱动的所有权和Collibra数据办公室亚愽视频

阅读更多
箭头