数据湖与数据沼泽:推动类比

数据湖与数据沼泽

所有看过的人大数据任何时间都可能已经过度暴露在“数据湖vs.数据沼泽”的类比中。这个类比假设“湖泊”在某种程度上比“沼泽”更整洁、更有序。但湖泊看起来更有序的唯一原因是,所有物理结构和生物的复杂性都在水面以下,而在沼泽中,这些复杂性中的一些是暴露在所有人面前的。

事实证明,细节的可见性是数据湖管理的主要问题之一。数据量和数据重复版本的数量,使得不可能从其结构特征准确识别正确的数据。业务部门之间的术语不同,这意味着如果没有共同的参考数据和语义协议,用户添加的信息可能会被误解。

但是,由于数据湖的经济效益如此引人注目,组织往往在没有清楚了解当前存在的数据的情况下,就开始将数据放入湖中。这就产生了两个结果:

  1. 湖中的数据实际上只有那些已经知道它是什么以及它的含义的人才能使用。如果一组不同的用户访问了相同的数据,他们将创建一个副本,并用自己的术语标记它。其结果是,湖泊变成了一个筒仓环境,基础设施的共同性不会导致任何信息共享。事实上,它实际上可以增殖副本,因为额外存储的成本很低。
  2. 没有足够的信息,很难区分湖中的数据。与其说它是沼泽,不如说它是泥坑。一切看起来都一样,你分不清好坏。

清理湖泊并不是让它看起来更有秩序和平静,而是让你能看到里面的所有特征——更像沼泽。当然,我们不能像许多数据仓库那样,回到所有东西在可用之前都必须完全描述的模型(我们都知道这个故事的结局)。相反,通过初始注册收集元数据并随着人们使用数据而不断收集更多信息的流程是确保灵活性并捕获重用和共享机会的最佳方法。

这种方法还确保了解数据的人(因为他们生产和使用数据)是描述和记录数据信息的人。人们愿意这样做,因为他们看到了价值,因为拥有这些信息也更容易找到和使用湖中的数据。因此,这是一种公平的交换:你对数据的了解,以及你将如何使用这些数据,都很容易获得。目前,这是唯一可以自然扩展的可行方法。

许多技术都承诺解决数据沼泽的问题。虽然他们确实解决了问题的各个方面,但主要的挑战是确保数据集可以被看到,而不是隐藏在看似平静的表面之下。为了应对这一挑战,组织必须让他们的数据在湖中可见,并将查找数据的过程(通过数据目录)到收集有关数据的信息的过程。如果没有这种连接,数据湖可能看起来平静,但它将只是一个毫无特色的广阔空间,而不是一个丰富多样的景观。

数据湖与数据沼泽

相关资源亚博 在线

查看所有资源亚博 在线

更多像这样的故事

2020年12月1日-4最小值

数据治理用例——3种实现方法

阅读更多
箭头
GoverningDataLakes它'saBlizzardofData
2018年1月18日3.最小值

这是一场暴雪(数据)

阅读更多
箭头
啊,巴黎:巴黎大数据概述和一些建议
2017年3月9日2最小值

啊,巴黎:巴黎大数据概述和一些建议

阅读更多
箭头