亚愽视频Collibra和Databricks:利用Databricks SQL将合作关系提升到一个新的水平

亚愽视频Collibra和Databricks是两家有着相同使命的公司。它们都可以帮助组织释放数据的价值,突破传统孤岛,加快洞察时间并推动数字化转型项目。然而,他们以独特和互补的方式做到了这一点。

亚愽视频Collibra使组织能够将数据作为一种资产来培育——帮助增强数据发现、帮助理解、促进信任并确保遵守相关政策。在此基础上,Databricks为数据科学家、工程师和分析师提供了一个平台,可以快速将数据转化为业务洞察,使他们能够快速摄取、处理、存储和分析大型和多样化的数据集。

Collibra和Databricks合作的关键很简单:Collibra亚愽视频提供了一个数据智能平台,帮助组织确保对数据的信任;Databricks提供了一个统一的分析平台,将可信数据转化为业务洞察。这两组功能是齐头并进的。随着组织积累越来越多的数据,他们需要强大的分析来从这些数据集中获得见解。但这些见解只有从可信的数据中得出,才能真正有价值。

整合接触点

鉴于Collibra和Databricks的互补性,这两个平台之间存亚愽视频在几个潜在的集成接触点。然而,为了本博客的目的,我们将重点关注两个最重要的:

三角洲湖:是Databricks的最初创建者三角洲湖,为大数据实现提供开源存储层。Delta Lake通过引入ACID事务使数据湖实现更加可靠,从而解决了许多组织在其数据湖实现中面临的一个关键问题。然而,如果没有适当的治理,许多组织仍然在数据发现、分类和遵从性方面面临挑战。亚愽视频Collibra擅长应对这些挑战。输入Delta Lake的数据可以通过Collibra自动进行分析和分类。亚愽视频这样做可以使最终用户更容易找到正确的数据,理解其上下文(包括对其使用的任何限制)并信任其准确性。

砖的SQL和BI集成:Databricks最近推出了砖的SQL,一组功能,提供与商业智能工具的增强集成以及更快的查询性能达美航空发动机,一个为SQL工作负载优化的矢量化引擎。亚愽视频Collibra不仅与相同的BI合作伙伴集成,而且与砖的SQL,使业务分析师能够购买数据,并使用Collibra data Catalog中的元数据自动提供数据。亚愽视频类似地,在这些BI平台中创建报告和仪表板也可以在Collibra数据目录中注册,为分析师提供亚愽视频了一个合作、分享见解和减少重复工作的平台。

解决一系列挑战

Collibra和Databricks功能的结合使组织能够解决与传统数据湖亚愽视频实现相关的一系列挑战。

购买数据

亚愽视频Collibra通过突出显示认证数据集和使用自动推荐等技术,帮助数据消费者找到正确的来源。购物体验的一部分还包括通过提供上下文(通过业务词汇表、数据字典和整理用户反馈)来帮助理解数据。一旦选择了正确的数据,就需要将其转换为用户分析所需的目标格式。亚愽视频Collibra对技术元数据的详细知识通过帮助编排数据管道来支持这一过程。例如,用户可以选择a砖的SQL实例,并在Databricks上的Delta Lake中创建一个指定所需表的Tableau数据源。Tableau将能够在Collibra的元数据指导下访问Databricks中的数据。亚愽视频

合规

大多数组织都面临着大量影响其数据使用的规则和政策。全球各地的数据隐私法规正在迅速发展(例如欧洲的GDPR、美国的CCPA、巴西的GDPL和印度的PDP法案),以及要求制定自己的一套控制措施的行业特定规则、限制共享敏感信息的内部政策(例如确保薪资信息保留给人力资源专业人员)以及用于审计目的的数据保留要求。要平衡如此复杂的需求组合,只能通过以数据为中心的粒度方法来实现。通过在柱状级别上分析和分类输入Delta Lake的数据,Collibra确保可以准确识别所有敏感信息,同时还突出显示可用于确定访问权限的适用策略。亚愽视频

BI血统

数据沿袭为任何数据驱动的组织提供了各种好处。亚愽视频Collibra可以跟踪从Tableau生成的报告到特定Delta Lake表和列的数据沿袭。这样,当报告中的元素被弃用时,组织可以通过提醒业务分析人员来解决操作风险。同样,任何查看报告并质疑基础数据有效性的人都可以快速追踪数据的来源,以确定其可靠性。

控制摄入

数据湖为企业数据资产提供了可扩展且具有成本效益的存储。然而,由于支持以更快的速度存储更大数量和种类的数据,许多实现都遇到了与数据治理和发现相关的问题。亚愽视频Collibra通过自动捕获元数据来帮助解决这些问题,因为数据集被输入湖中,并补充了主题专家的见解。这些描述性信息使组织能够了解数据的来源、每个字段是如何定义的、数据集是否完整和准确,以及是否存在管理其使用的限制。此外,Collibra的内亚愽视频置治理功能可以通过维持问责制来帮助解决数据质量问题,并帮助引入质量保证和认证流程。

交付业务利益

数据可以对业务的各个方面产生积极影响。它可以帮助组织更好地了解他们的客户,构建更好的产品,提高运营效率并降低风险。但为了实现这些目标,组织需要确保他们的数据和分析得到正确的人员、流程和技术的支持。

Databricks擅长通过为数据科学家、数据工程师和分析师提供复杂的分析平台来推动敏捷的数据运营。作为开源项目(包括Apache Spark、Delta Lake和ML flow)的最初创造者,该公司以创建能够加速创新的开放和协作框架而自豪。SQL分析的引入在敏捷框架中为业务分析人员创建了一个家。

然而,通过支持更敏捷的数据操作,组织还必须确保正确的数据的来源和权限是正确的。亚愽视频Collibra可以实现这一点。亚愽视频Collibra数据目录使业务分析师和数据科学家更容易找到数据,了解其业务上下文,了解有关其使用的任何限制,并快速提供数据。

在幕后,Collibra还确保数据是可亚愽视频信的。它通过其内置的治理功能来实现这一点:通过数据字典和业务词汇表来推动一致性,通过问责制和认证来提高数据质量,并通过对数据进行分类以跟踪个人身份信息来帮助确保遵从性。

Collibra和Databricks之间的合作亚愽视频一直是互补的。Databricks SQL Analytics的推出在两个平台之间实现了新的用例,最终目标是用一个基于可信数据的敏捷分析平台支持数据驱动的组织。

想要查看Collibra亚愽视频数据目录的操作?

观看这个演示视频

相关资源亚博 在线

视频/网络研讨会

亚愽视频Collibra数据谱系

白皮书

企业数据目录:看到更大的图景

博客

亚愽视频Collibra和Databricks用于开放的、受治理的数据共享

查看所有资源亚博 在线

更多像这样的故事

2020年8月21日-3.最小值

信任您的数据:为什么需要受治理的数据目录

阅读更多
箭头
2020年8月7日-3.最小值

向重复的数据支出说再见吧

阅读更多
箭头
快速跟踪您的云之旅
2020年3月6日-4最小值

通过数据沿袭快速跟踪您的云迁移旅程

阅读更多
箭头