为什么治理基础对云数据平台至关重要

云数据平台已经成为企业数据架构的关键组成部分,在许多组织的数字化转型战略中发挥着核心作用。这不仅仅是因为它们提供了多用途、可扩展和低成本的存储。这是因为它们促进了更敏捷的数据操作,突破了孤立的架构,并释放了人工智能和机器学习的潜力,以推动新的可信业务见解。

这些核心优势有助于解决公司在执行数字化转型计划时面临的许多挑战。在所有垂直行业中,公司正在收集更大量的数据,这表明需要可扩展的、具有成本效益的解决方案。亚愽体育app下载他们还收集了大量难以通过单一模式描述的数据(包括结构化、半结构化和非结构化数据)。这表明需要多用途存储。最重要的是,他们需要快速从这些不同的数据集中获得见解,这表明需要敏捷的数据操作和复杂的分析(特别是AI/ML功能)。

云数据平台是什么意思?

与企业技术世界中的许多术语一样,“云数据平台”可能有些模棱两可,这就是为什么我们将从定义它的确切含义开始。从功能的角度来看,当我们提到“云数据平台”时,我们指的是企业收集、处理、存储、分析和可视化数据所需的所有工具。虽然谷歌云平台(GCP)的功能一直在不断发展,但随着新服务的推出,以下是对这些类别中目前提供的工具的一些见解:

数据收集:云数据平台需要聚合来自多个不同来源的数据,包括实时更新和批量传输。GCP提供了机载流数据通过的能力发布/订阅而且物联网的核心服务,并提供了一系列批量上传选项通过数据传输

数据处理:源系统上的数据通常需要在存储之前进行预处理,以支持进一步的分析。GCP提供了一系列工具来支持这些过程,包括数据流对于流数据,DataprocHadoop/Spark堆栈,数据融合(用于集成来自多个数据源的数据)和Dataprep(用于数据争论)。

数据存储:大多数st企业需要数据湖和数据仓库技术的组合来支持他们的商业智能和数据科学团队。数据湖谷歌云存储需要适应各种各样的数据类型——特别是非结构化数据源,但也包括原始形式的结构化数据(在进行预处理之前)。这种多功能性适用于多个用例。数据湖可以作为原始数据源的存储库、为进一步分析准备的数据的staging区、自助服务商业智能的中心枢纽或这些功能的组合。另一方面,数据仓库充当结构化数据的中心枢纽,这些数据已被处理为公共模式,因此可以进行进一步分析。GCP的数据仓库解决方案BigQuery特别适用于可伸缩的企业分析。它的分布式架构不仅提供了高可用性和持久性存储,而且还有助于支持查询性能和可伸缩性。

需要注意的是,处理非结构化数据通常会产生本质上是结构化的输出。举个例子,一家公司希望分析通过多种渠道收集的客户对话(呼叫中心音频文件、电子邮件和即时消息)。这些对话的文本内容(一旦音频文件被使用语音识别)本质上是非结构化的,不一定会被直接引入数据仓库。然而,自然语言处理引擎可以用来对这些对话进行评分,并确定客户满意度的水平。在此过程中,原始的非结构化数据被转换为结构化数据,可以与其他来源结合进一步分析,作为更广泛的客户流失调查的一部分。

数据分析:一旦数据被收集、处理并存储在所需的结构中,就可以进行进一步的分析。这可以采取多种形式——从简单的查询到更复杂的计算指标和分析,一直到旨在检测新模式或驱动预测的机器学习模型。BigQuery提供了全面的分析功能,包括用于流媒体而且地理空间分析,以及机器学习

数据可视化:一旦数据被分析,就需要以直观的方式呈现出来。从简单的折线图和条形图到更复杂的地理空间可视化,大多数商业智能工具的关键是清楚地显示模式并使数据更容易理解。GCP最近收购美人作为自己的内部商业智能解决方案,但也与一系列第三方合作,包括Tableau和Qlik。

为什么云平台上的数据需要治理?

云数据平台已被证明在促进敏捷数据操作方面非常有效。这不仅是因为它们不需要管理硬件,还因为可以使用各种工具和深度自动化来支持刚才提到的流程。

然而,云数据平台提供的一些核心好处也可能导致意想不到的后果。组织可以轻松地以较低的成本存储更大的容量和更广泛的数据,这可能会导致糟糕的内务管理。如果没有适当的治理,组织可能会遇到以下方面的挑战:

  • 数据质量:一个缺乏所有权和问责制可能导致对源数据的控制不佳,从而导致高度重叠或冗余。上下文信息的缺乏也使得很难确定哪个来源是最完整、最准确或最新的。
  • 数据发现:云数据平台为业务分析师和数据科学家带来了巨大的希望。能够从单一位置访问企业数据资产可能听起来像是万灵药。但如果没有上下文信息,他们就不知道该选择哪些来源,如何解释这些数据,或者是否相信这些数据的准确性。
  • 合规:糟糕的数据治理也会带来风险。大多数组织都面临着影响他们管理数据方式的无数规则。一些法规,如GDPR和CCPA,为数据主体提供了更大的数据权利(例如删除其个人信息的权利),并要求组织有义务维护这些权利。行业监管机构和税务机关制定的其他规则要求组织为审计目的保留数据。面对越来越复杂的法规集,组织需要采取以数据为中心的合规方法——知道所有敏感信息存储在哪里,每个数据集适用哪些策略,允许什么类型的处理以及应该如何控制访问。

解决这些挑战正是使“受治理”云数据平台的概念脱颖而出的原因,也是Collibra与谷歌云平台(GCP)合作背后的驱动力。亚愽视频

如何确保云平台上的数据得到良好的治理?

为了释放云数据平台提供的好处,并减轻任何意想不到的后果,组织需要确保数据和分析得到适当的治理。这就是Collibra的优势亚愽视频所在。亚愽视频Collibra提供了一个协作平台,通过帮助促进数据的信任、可发现性和理解,使组织能够更好地管理其信息资产。

为了解释治理的含义,我们强调了以下四个策略,它们是成功实现受治理的云数据平台的关键:

控制摄入:为了确保向云数据平台提供可靠的数据,源数据在被摄入之前必须得到适当的治理并在数据目录中注册,这一点非常重要。捕获相关的元数据将帮助最终用户确切地知道哪些数据是可用的,它意味着什么(提供业务上下文),它来自哪里,以及它的准确性、完整性和一致性。

构建元数据驱动的数据管道:正如云架构支持更敏捷的开发方法一样,它们也促进了更敏捷的数据操作。通过受控摄取过程捕获相关元数据为数据科学家提供了构建自己的数据管道所需的信息。他们不必等待中央团队为他们准备数据,而是有权选择满足他们需求的源数据,并将其转换为适合他们分析的结构。

认证信息资产:数据治理是一门不仅可以应用于源数据的学科。管理促进数据分析的组件也同样重要——从特定查询、API调用、分析和机器学习模型,到报告、工作表、笔记本、仪表板和多维数据集。在目录中注册这些信息资产意味着业务分析师不仅可以共享他们的见解,还可以共享生成这些见解的工具。这有助于整个组织更加智能化——加快将原始数据转化为指导业务决策的有意义的结论所需的时间。

访问管理:正如需要对云数据平台中摄取的数据进行控制一样,也需要控制如何将数据提供给数据消费者。访问治理不仅需要对数据集的粒度理解,还需要对允许的用例的粒度理解。然后可以配置策略以应用于特定的数据元素和/或类别,确保仅在允许的情况下提供数据。例如,每个请求都可能考虑查询的目的,以及数据消费者的位置和业务单元——确保始终遵守关于数据隐私和主权的规则。

欲了解更多信息

在经济的每个部门,组织都希望做出数据驱动的决策,以改善业务结果。云数据平台提供了一套强大的工具来支持这些数据驱动的洞察。然而,如果没有适当的数据和信息资产治理,组织将在数据质量、数据发现和遵从性方面遇到挑战。

看这个网络研讨会了解ATB金融如何利用谷歌Cloud和Collibra加速其数字化转型。亚愽视频

要了解更多关于Collibra和谷歌Partners的亚愽视频信息,请查看我们的合作伙伴页面

学习如何使用GCP和Collibra构建受治理的云数据平台。亚愽视频

下载我们的受治理云平台白皮书

相关资源亚博 在线

新闻稿

亚愽视频Collibra作为托管服务在谷歌云平台上推出

视频/网络研讨会

亚愽视频Collibra数据目录

博客

信任您的数据:为什么需要受治理的数据目录

查看所有资源亚博 在线

更多像这样的故事

2021年5月4日-2最小值

在谷歌Cloud上使用Collibr亚愽视频a和Databricks的好处

阅读更多
箭头
2021年4月9日-3.最小值

为保险公司提供业务价值

阅读更多
箭头
2021年3月31日-2最小值

亚愽视频Collibra通过谷歌云驱动云迁移数据管理标准

阅读更多
箭头