数据智能的12步:第4部分

自动化装配:面向数据智能之旅的分布式查询、访问管理和360度视图

我们的任务是评估为什么一家公司会经历高客户流失率。我们如何推动一个准确的、可操作的、低成本的结果,从而防止公司未来的流失?我们踏上了数据智能之旅,共12步。在这个由五部分组成的系列文章的第4部分中,我们将介绍数据智能之旅的接下来三个步骤:

  • 步骤9 -服务代理:一个分布式的联邦查询和提取引擎,它从选定的数据库和系统中提取请求的和授权的数据,并将加密的数据传输到指定的位置
  • 步骤10 -访问管理:在交付和使用之前对提取的数据实施身份和访问管理策略(步骤3)
  • 步骤11 -合成:在交付和消费之前,将(在步骤#7中)确定为相同(人)的两个或多个提取(客户)记录制成单个金记录的过程

我们的旅程还在继续

克利夫是一名商业分析师,他的任务是试图找出为什么他的公司正经历着令人担忧的客户流失趋势。考虑到涉及的人数众多,公司必须迅速采取行动,但他们必须准确地发现根本原因,并制定有效的行动计划。不作为是不好的。但错误的行动更糟糕。答案就在数据中。但是什么数据呢?

这是基础数据情报。可信数据属于每一个知识工作者,并且应该以这样一种方式在组织生态系统中流动,让业务专业人员以他们需要和选择的任何方式进行连接、沟通和协作。我们跟随Cliff一起寻找这个现实问题的解决方案。亚愽体育app下载

首先我们建立了基金会对于一个战略数据情报计划.这让我们在货架上摆满了高度组织的方式和易于使用的上下文.然后我们准备从a开始从供给到需求在我们打开数字商店的大门之前。在这里,专业人员可以使用可信数据:

  • 进行研究
  • 分析模式
  • 发现问题和机遇
  • 与同事和伙伴合作
  • 确保安全性和遵从性

但让我们记住我们的目标受众,Cliff,因此支撑这段旅程的购物体验隐喻必须尊重用户的技能和能力。让我们继续我们的旅程。

步骤9:服务代理

回顾步骤4-6 (第2部分),我们引导Cliff完成了发现和选择数据集的过程,这些数据集最适合他的客户流失分析。Cliff在数据智能图的指导下,得到了高度组织的选项(分类),并清楚地指出每件物品的来源、旅途中可能发生的任何事情,以及物品的去向或用途(血统而且转换),以及可供选择的选项(分析而且得分).Cliff能够快速而自信地用最适合他分析的数据集填满他的购物车。现在Cliff准备通过自动结账流程继续他的自助数据购物体验。

Cliff购物车中的每个数据集都链接到一个数据所有者(data Owner),该数据所有者是组织中的个人或部门,全面负责建立和执行关于数据集访问和使用的策略。作为结帐流程的一部分,Cliff对一个或多个数据集的请求必须附有预期的目的和用途、访问和使用日期以及他希望如何接受交付。Cliff有三种主要的方式来获取所请求的数据集:

  • -使用虚拟化(不存储物理副本)技术访问和使用数据的临时方法。这种交付方法最符合分析、报告和算法培训
  • 租赁一种抽取数据并将其加载到分析数据存储库中以供后续访问和使用的有时间限制的方法。这种交付方法与需要结合Catalog中不可用的数据和/或不支持虚拟化的Analytics平台的用例最一致
  • 通过将数据提取并加载到分析数据存储库中以供后续访问和使用,将数据集的无界副本移动。这种交付方法与将数据从遗留环境迁移到下一代环境最为一致

Cliff为签出提供了所有必需的信息之后,请求被路由到与Cliff请求的数据集相关联的每个Data owner。

数据所有者利用嵌入式工作流功能,可以选择手动或自动交付他们的数据使用协议(DUA)决策。如果数据所有者的策略要求Cliff在第一次使用或每次使用时确认DUA,无论手动或自动决策,Cliff的工作队列中都会显示一个任务,以便在适当的时候进行此类确认。在完成所有的批准和确认之后,Cliff现在被授权签出。

数据智能平台充分利用编目和分类物理数据集的所有元数据和映射(步骤4),可以生成所有必要的精确指令(查询语言),以有效地提取Cliff授权在物理数据所在的边缘使用的数据。如果Cliff请求了多个数据集,而这些数据集位于物理上不同的数据中心,这些指令将由适当的Edge组件提取并执行。然后,每个Edge组件将使用数据智能平台生成的精确指令连接、验证并从底层数据库或系统中提取数据。然后,可以对提取的信息进行加密并将其传输到所请求的目的地(例如,到支持云的弹性容器或租赁到S3文件夹加载到BigQuery中)。

每组查询指令,每个数据集一个,将运行到完成;将请求的数据交付到请求的目的地。当请求两个或多个数据集时,每个数据集将被交付到相同的目的地(例如,弹性容器、S3文件夹等),并融合成其规范格式(步骤2),同时保留其起源/出处标记。通过这种方式,汇集在一起的所有数据共享逻辑或规范模型的格式和形状,而不管每个底层数据集可能有多么不同或多么独特。转眼间chango, Cliff只需点击一个按钮就能得到他想要的东西,这都是因为你在基础建筑、货架上的投资,并为你组织中的任何人提供了易于使用的线索。

步骤10:访问管理

在我们将提取的信息交付给Cliff之前,确保遵守身份和访问管理规则,并在适当的情况下执行监管关注的原则是至关重要的。当数据访问策略是直接的,并且可以在提取时处理(例如,社会保险号必须被屏蔽或删除),而不知道任何其他请求的数据时,它可以并且应该作为提取指令的一部分来执行,在那里它是最有效的。然而,大多数数据将通过直接(例如JDBC)连接提取,从而绕过应用程序级别上任何可能使用的单点登录(SSO)和基于角色的访问控制(RBAC)。此外,在提取数据之前或在提取数据时无法实现某些强制执行。例如,某些属性本身(例如,姓氏或出生日期)不被视为个人身份信息(PII);但是,如果与一个或多个属性(例如,姓氏+出生日期)结合在一起,就可以成为PII。因此,在数据提取之后,必须首先确定对身份属性的请求和可用性,然后才能执行访问策略。总之,访问管理策略应该在过程中最有效和最合适的时间应用——(1)指令的生成可以排除特定的属性或表,(2)数据可以作为提取的一部分被完全或部分屏蔽,或(3)对记录的所有提取属性的评估可能导致删除和/或额外的属性屏蔽。

在这12步旅程的背景下,访问管理的目的是过滤、删除、屏蔽或以其他方式强制执行在前面步骤中建立的访问策略,数据使用协议和隐私与风险策略,并在Cliff购物和结账过程中可见。在执行Access Management之后,剩下的数据集包括Cliff请求的和被授权使用的所有数据,所有这些都不需要编写任何复杂的集成代码,也不需要让IT部门的人将任务添加到他们不断增长的任务列表中,也不需要创建一个新的数据湖等等。克利夫正处于成功的边缘,但还有另一步……

步骤11:合成

如果Cliff请求的数据集包含重复的数据集(例如,同一个客户从同一个数据集中重复了两次或两次以上)和/或Cliff请求的多个数据集包含重叠(例如,两个或多个数据集具有相同的客户),Cliff的分析可能是倾斜和误导的。Cliff需要一种技术,将对同一事物的多个引用整合为单个的黄金记录,以支持他的分析。减少对同一现实世界事物的多个引用的过程称为合成

在第7步-数据匹配中,我们自动匹配和链接表示相同事物的数据集内部和跨数据集的记录,如Customer。正是在这一步中,我们展示了如何使用这些链接集来交付真正值得信赖的高质量数据的强大功能。了解了两个不同数据集上的三个不同记录是同一个客户之后,Cliff可以定义Compositing Rules,告诉解决方案如何建立一个用于分析的黄金记录。

一些例子可能是:

  • 所有唯一值
  • 可信的源
  • 最常用的断言值
  • 最近断言的值

对于返回的数据集中的每个属性,当有多个记录包含一个属性的非空值时,Cliff可以建立一个或多个规则来选择将表示黄金记录的值。如果属性映射到Reference Management代码,则可以将其幸存的值转换为逻辑属性的共享分类法。

最后,Cliff现在有了一个完全原始的数据集用于他的分析。不编码。不要乞求帮助。没有人为的限制或障碍。没有风险,也没有循规蹈矩。这是克里夫有权使用的公司提供的最好的数据。这是一个真正的民主化数据集。

这是正在进行的系列文章的第四部分。如果你错过了,请查看第1部分第2部分而且第3部分

在这个由五部分组成的系列文章中,还剩下最后一部分,请回过头来看看Cliff如何使用这个原始数据集来回答他关于客户流失的问题。

了解更多关于数据智能的信息

相关资源亚博 在线

博客

数据智能12步:第1部分

博客

数据智能的12步:
第2部分

博客

数据智能的12步:第3部分

视频/网络研讨会

亚愽视频Collibra数据智能云

查看所有资源亚博 在线

更多像这样的故事

2023年1月5日2最小值

埃森哲和Collibra:加亚愽视频速数据网格之旅

阅读更多
箭头
2023年1月4日3.最小值

获得您需要的洞察力和可见性与我们的新集成和样本…

阅读更多
箭头
2023年1月3日3.最小值

创建成熟的数据文化

阅读更多
箭头