2017年2月21日6分钟读

使用Apache Spark™和AI/ML彻底改变数据治理

最近，我和一家大型企业客户的数据治理项目经理聊了聊，对他来说，从整个公司的角度来看待这个问题是多么困难数据质量y.我了解到，大公司可以有许多不同的规则引擎来检查质量和管理数据。这些工具中的每一个都擅长于他们需要做的事情，即从技术上检查数据质量并修复它，但通常缺少数据所有者的业务输入。因此，数据管理员面临的真正挑战是:

获得统一视图
了解数据和相关流程
用自己的业务语言定义质量差距
定义一个有效的工作流程，由正确的人在正确的地方处理空白
当缺口被解决时，创建一个自动反馈循环

为了能够应对这些挑战，您需要在企业范围内数据治理平台它结合了数据编目，数据沿袭在机器学习的支持下，数据管理员、数据分析师和数据科学家能够独立于数据驻留的位置，从而实现数据质量、数据概要和警报功能。

到目前为止，许多组织已经在跨数据源和系统的大量技术工具中实现了质量检查，从业务角度很少或根本没有统一的质量视图。在当今数据驱动的世界中，业务变化迅速，数据管理员需要更敏捷地在数据上构建业务规则。通过这种方式，他们可以深入了解业务流程需要如何更改，以及需要与业务中的哪些人协作以从根源上解决数据问题。他们还需要一种数据治理和数据质量的集成方法——而不是各种不同的竖井应用程序。如果你问我们这样的人首席技术官斯坦·克里斯蒂安他说，工具箱的方法并不适用于数据治理。你会在Gartner和Forrester等领先分析机构的报告中看到类似的主题。

这是一种范式转变，从数据质量是一种技术性的、被动的努力，到一种更主动的方法，使您的数据治理活动与不断变化的业务战略更加一致。这种方法还将优先级设置转移到业务，因此数据质量工作将首先集中在关键数据元素上。它还加强了企业拥有数据所有权的重要性，因为这是能够信任您的数据的唯一有效方法。信任是由治理、策略和业务质量规则和度量引起的，这些规则和度量是由强大且信息丰富的数据沿袭可视化实现的。

数据管理员、数据分析师和数据科学家以前从未能够在他们的组织中浏览无所不包的数据目录。现在，他们可以看到数据的样子，了解它遵守哪些策略以及质量如何，并且，在此基础上，提供了轻松设置阈值和规则的能力，以主动监控他们所拥有的数据的质量。他们可以在一个单一的平台上做到这一点，通过Apache®Spark™机器学习提供支持，Apache®Spark™是一个强大的处理引擎，围绕速度、易用性和复杂的分析构建。

用我们的一位客户的话来说，“我们已经和我们的数据管理员一起尝试了许多传统的数据质量和分析工具，但是界面和术语仍然过于技术化。”

以业务用户为中心和以数据治理为中心的平台的关键构建模块是:

数据结构的自助登录和轻松组装到逻辑集-基于业务需求。这使您能够立即对最重要的数据有一个清晰统一的图像，并允许您的数据公民轻松地找到正确的数据。
多维数据沿袭，允许您理解与数据相关的所有关键方面:人员、流程和系统
显示每个逻辑数据集的数据如何从源流向目标的可追溯性
见解深刻的数据分析可视化，包括打乱和匿名的数据样本，以帮助您理解需要承担所有权的数据
警报和自动数据发布工作流，使您能够触发正确的管理流程，在源头修复数据问题，而不是在报告时以不可持续的方式修复数据问题。这将迅速建立对公司数据资产的信任
类似亚马逊的购物体验，允许在整个企业范围内控制和治理数据使用

自助数据购物

亚愽视频Collibra目录帮助从您公司的源记录系统自动导入所有数据结构(又名技术元数据)。而且，它在逻辑上将数据分组为用于报告、分析或合规的数据集。机器学习算法使数据管理员可以轻松地将技术数据沿袭与更容易理解的业务上下文合并。您还可以使用其他机器学习技术来检测相似的数据集、重复的业务术语等等。这使得清理数据沼泽并将其净化为数据湖变得非常容易，数据公民和数据科学家都可以很容易地为任何业务报告或数据科学项目找到可靠的数据集。最后，像标签、用户提及、评级这样的协作功能更有利于围绕数据的业务上下文的众包，使每个人都更容易找到、理解和信任数据集。

数据谱系为每个人关注所有权，质量和信任

亚愽视频数据沿袭图提供自动化的“数据”沿袭，以理解从源系统到关键遵从性报告的数据流。分层谱系可视化以用户为中心，专注于为用户提供正确的见解，这取决于查看图表的用户角色。用户可以轻松地打开或关闭这些图层。例如，从源系统到遵从性报告的数据沿袭的质量是理解和信任以及可审计性的关键。以下是目前数据沿袭中可用的一些示例:

每个数据质量维度的叠加显示当前的平均分(绿色-琥珀色-红色)和趋势指示(稳定、向上或向下)
覆盖已定义的数据质量度量和规则的数量
按状态产生的数据质量问题数量的叠加(高-中-低)
覆盖每个数据资产的所有权

数据概要图1.2

分析和预览提供对数据的自动洞察

Catalog的最新功能是数据概要分析和数据预览，允许数据管理员接触数据。他们可以看到、感受并更好地理解数据，而不需要过多的阻碍和依赖于数据的技术所有者。高度可视化的数据概要分析结果显示了数据的关键特征、分布和异常值。

警告!不要从象牙塔中管理数据，使用真正的数据治理平台来接触您的数据。

警告!不要在象牙塔中管理数据。使用一个真正的#数据管理平台。

点击Tweet

通常情况下，数据质量检查是由不了解或从未见过或使用过数据的人从象牙塔中定义的。数据样本被打乱，敏感数据元素为用户自动隐藏。

管理员可以根据数据分析结果和打乱的数据样本定义业务数据质量规则。
机器学习技术将基于Collibra中可用的元数据和规则，自动建议适用相同或类似数据质量规则的数据集。亚愽视频
管理员可以在Collibra中定义数据模式(例如账号结构)，并让数据概要自动标记与模式匹配的每一列。亚愽视频
您和您的同事可以在Collibra内部进行头脑风暴，讨论正确的数据质量度量和指标是什么，并立亚愽视频即在Collibra中定义它们。然后，您可以构建交互式仪表板，以允许业务跟踪并跟上您的数据环境的当前状态。

数据分析图像2