数据智能的12步:
第2部分

组织,背景和判断:在数据智能之旅中更进一步

我们的任务是评估为什么一家公司正在经历高客户流失率。我们如何推动一个准确的、可操作的、低成本的结果,从而防止公司未来的流失?我们踏上了数据智能之旅,共12步。这是我们开始的地方;现在,让我们考虑一下:

  • 步骤4 -编目:登记和背景化所有事物数据或使用数据的事物
  • 步骤5 -血统和使用:了解数据起源于哪里,如何传播,以及在传播过程中发生了什么
  • 步骤6 -分析和评分:显示关键特征,分布和异常值,以揭示最值得信赖的数据

在本系列节目中,我们将踏上一段旅程。我们正在跟踪克利夫,他是一位商业分析师,他的任务是试图找出为什么他的公司——在许多方面都做得很好——正在经历一个令人担忧的客户流失的趋势。考虑到涉及的人数众多,公司必须迅速采取行动,但他们必须准确地发现根本原因,并制定有效的行动计划。不作为是不好的。错误的行为更糟糕。答案就在数据中。但是什么数据呢?

这是数据智能的基础。数据属于每一个知识工作者,并且应该以这样一种方式在组织生态系统中流动,让业务专业人员以他们需要和选择的任何方式连接、沟通和协作。我们跟随Cliff一起寻找这个现实问题的解决方案。亚愽体育app下载

在上一篇文章中,我们介绍了这个旅程的前三步:

  • 业务术语表:开发一种通用语言,以确保整个企业中常用的每个术语对每个用户都有相同的含义
  • 数据域:确定真正推动企业发展的名词——员工,产品、客户、地点和更多-提供企业的规范视图
  • 策略和引用管理:角色和责任、数据所有权、数据使用协议、保留和销毁政策,以及更多作为执行和遵守公司定义和监管机构定义的规则和指导方针的框架。

尽管这些步骤很费力,有时也很乏味,但跳过或匆忙完成这些步骤就等于屈服于一个没有实质内容的快速答案的诱惑。那么,让我们继续。

第四步:编目

大多数公司在整个企业中都有大量分散的数据和数据源。编目是发现和注册这些大量数据以及使用数据的工件(如报告、API、算法等)的过程,这样像Cliff这样的知识工作者就可以轻松地搜索和定位感兴趣和需要的项目。

这似乎是数据管理最基本的方面,但同样,障碍相当大,而且耗时。分类包括:

  • 大量:物理元素(例如,数据库列)可以以数亿计
  • 常见的冗余:相同的数据可以多次以不同的名称复制和重新存储
  • 无数的变化:不同的选区有不同的命名惯例;特定数据集的大小和形状在企业中各不相同

编目从发现开始——识别和区分数据库,报告,算法,api,主题等。它将数据组织(并重新组织)到可访问的字段中,如表/列,并跟踪数据的移动,如从工作簿到报告。它不仅加速了机器学习,而且突出了在这个过程中使用的数据。

目标是识别每个与数据相关的元素,并将其与规范域模型中的逻辑对等体相关联(来自步骤2)客户域模型和客户的逻辑属性之一是出生年月.在对Salesforce Automation解决方案编目时,您发现一个标题为的物理列Attr_Dt.由于缺乏专业知识,要确定这一物理属性代表什么将具有挑战性。数据管理人员可能采取的下一个逻辑步骤是评估表名、相邻列名,甚至示例数据Attr_Dt列。这可能需要几分钟或更长的时间。现在想象一下,您有500万列物理列Attr_Dt.对于500万个物理属性,每个物理属性需要1分钟,这一工作将花费数据管理员近40人年的时间来完成(每天8小时,每年261个工作日)。考虑到这对任何人来说都是不可接受的,编目行为需要自动化,不仅可以发现数据,还可以通过逻辑域模型对数据进行上下文化(也称为分类)。通过使用分类算法(机器学习),将逻辑步骤(表名、相邻列、样本和内容检查)自动化,公司可以从根本上将40人年的手工工作减少到几个月、几周甚至几天。

考虑将事件编目是不合适的;相反,这是一个持续的过程。将出现以前未编目的新数据集。也就是说,你不需要将生态系统中的所有东西都编入目录,才能开始向用户交付价值,就像Cliff一样。数据智能图的引导——通过编目来关联和链接节点——需要采用、使用和贡献。这就相当于你还没有把每一个货架都放满就开店了;你的消费者会很乐意就你需要关注的其他方面提出建议和评论。

步骤5:世系和使用

继续以开店为例,基本步骤(步骤1 - 3)相当于创建实体建筑,编目相当于以一种深思熟虑的(分类的)方式在货架上进货,因此,像Cliff这样的购物者在决定放入她或他的购物车之前,想要更多地了解货架上的商品是合乎逻辑的。其中一个相当有趣的项目是这些数据从何而来从和还有谁在使用它?将数据沿袭整合到知识图中可以解决这些具体问题。与编目不同,数据沿袭需要发现和收获方法。有多种方法可以发现和获取数据沿袭信息,例如从SQL(例如,存储过程)、ETL/ELT技术、报告/BI平台和代码扫描。收集到的信息的处理器应该在其基本核心处挖掘出一个物理元素(节点1),第二个物理元素(节点2),以及在将节点1的值插入到节点2之前放置在该值上的任何逻辑(例如,转换)。然后可以将这些节点与已编目的节点链接起来(称为拼接),并在数据智能图中的两个节点之间建立链接(或边)。Lineage帮助组织连接不同的系统和流程,在概念层、逻辑层和物理层提供数据如何在企业中流动的完整图景。编目使发现静止,沿袭它是如何到达那里和它从那里去哪里。

数据沿袭揭示了数据在其生命周期中如何在与系统、应用程序、api和报告的交互中转换。它自动映射数据之间的关系,以显示如何构建、聚合、来源和使用数据集,提供完整的端到端关系可视化。

这增加了原始数据的准确性和可理解性,增强了信任,并促进了更清晰的推断和业务洞察。甚至是eNables对下游系统的任何更改的颗粒级(柱状、表格或业务报告)的影响分析。

这是一个战略优势,它反映了最近的进展。在数字时代的大部分时间里,数据架构师必须手动在大量数据之间建立关系,以创建沿袭图。更新的技术允许大部分工作(几乎)自动完成,而且效率更高。今天,通过从分散的源系统中自动提取谱系并保持其更新,组织可以将资源用于战略计划,而不是无休止的数据映射。亚博 在线

除了明显的业务优势(比如帮助Cliff识别客户行为模式),谱系还可以在确保合规方面发挥关键作用。技术沿袭视图允许用户可视化转换,下钻到表/列/查询级沿袭,并在数据管道中导航。这对于向监管机构提供必要的信息非常重要。

步骤6:分析和评分

再一次,回到Cliff的购物例子,当在两个或两个以上的选择之间进行评估时,一个常见的要求是能够根据对你来说重要的东西来比较你的选择。让我们假设当Cliff为他或她的流失分析寻找数据集时,Cliff相信年龄是划分的重要标准。当Cliff评估他或她在一系列系统(例如Salesforce Automation、ERP、订单管理、Web等)中对客户数据的选择时,这些系统已经被编目并分类到客户领域模型中,这将有助于Cliff确定哪些数据集提供了最理想的数据质量和准确性。以前面提到的购物为例,Cliff想要查看食材,并将它们与他或她的选择进行比较。

提供“成分”可见性的常用方法是配置文件在给定的物理数据列中可以找到的内容。剖析可以提取统计信息,比如有多少行、% null、% invalid、频率分布、最小长度等。这些信息可能对一些精通数据科学和数据质量的用户有用,但对于像Cliff这样的购物者来说,这在很大程度上是不可读的,或者需要花费太多精力来作为快速决策的指南。但是想象一下如果你可以计算a分数基于从分析中收集的所有统计信息。再进一步想象一下,如果这个分数可以帮助你快速排列你的选项,让你选择最简单、准确和值得信赖的数据集。Cliff将能够同时查看他或她的选项,快速确定最适合他或她分析的选项,并自信地将请求放入购物车。

在业务方面,这些功能为Cliff开发自己的分析提供了更大的自由。如果他正在查看诸如客户年龄范围、邮政编码或购买频率等子集,以确定客户流失背后的模式,那么他只能使用最值得信赖的数据,而不是所有数据或冒着处理价值最小的数据的风险。

总的来说,首先我们建造了购物中心。其次,我们获得了出售的物品,并将获得的物品整理并放置在货架上,以便于发现。然后,我们让玩家很容易确定物品的来源、旅途中发生了什么、还有谁在使用它,以及从那时起它要去哪里。最后,我们提供了易于使用的食材和比较分数,以提供视觉线索,以支持比较购物。Cliff非常高产,对他想要的东西非常有信心,但似乎收集和组装这些东西会很复杂。

克利夫的旅程正在加速。我们还有几步要走。

阅读我们下一篇关于数据智能的博客

相关资源亚博 在线

博客

数据智能12步:第1部分

博客

数据智能的12步:第4部分

博客

数据智能的12步:第5部分

电子书

对未来一年的5个预测

查看所有资源亚博 在线

更多像这样的故事

2022年9月8日-4最小值

为什么需要企业数据目录

阅读更多
箭头
2022年4月27日-4最小值

企业数据目录:从剪断绳索中学到的教训

阅读更多
箭头
2021年11月29日-3.最小值

与Collibra和Okera一起购买数据亚愽视频

阅读更多
箭头