数据智能12步:第1部分

数据智能的12步

总是有类比来描述数据的价值。英国数据科学家克莱夫·亨比(Clive Humby)将其称为推动现代商业的“新石油”。这个比喻持续了十多年,但有点迂腐的是,它被嘲笑为一个错误的等同。例如,石油被少数人囤积,而数据必须无处不在并被共享。进一步的比较原子能,甚至外层空间,表明无限的可能性和危险。

冒着又一个失题的风险,我们认为数据最像水:必不可少、基本、肯定生命。可以肯定的是,它可能是泥泞和危险的。但当它清晰可控时,就至关重要了。是的,水可能含有毒素,带你走下危险的急流,误导和迷惑你,等等。但毫无疑问,它贯穿于自然界的方方面面——人类的和系统的——不仅帮助生物体生存,而且帮助它们茁壮成长。这就是数据的工作原理。它贯穿于所有公司的所有业务,帮助他们建立市场地位,支持创新和成功。这就是我们的方法数据情报

为一个公司实现数据情报不存在“简单按钮”。这需要众多团队的协调,需要领导层的支持,需要从a点到z点的清晰路径。为了让整个过程尽可能清晰,我们制定了12步流程。在这个由五部分组成的系列文章中,我们将探索数据智能之旅。我们将开发一个真实的、易于理解的场景,看看数据如何推动关键决策和可操作的计划,在每个里程碑处停下来整理情报,然后继续前进。

首先,让我们来展示一下这个场景。想象一下一家好公司的美好时光——销量上升,新产品广受欢迎,前景似乎一片光明。但在上个季度末,出现了一个黑点:客户流失。新客户不断涌入,这很好,但现有客户正在流失。没有人预料到这一点,如果董事会还没有出现恐慌,这只是时间问题。投资者在问问题,而管理层还没有答案。

所以我们遇到了“克里夫”。他被告知要找出问题所在:客户为什么离开?他们有什么共同之处?当然,答案可以从数据中找到:有一种模式可以揭示流失的原因,分析可以指导业务计划,以防止未来的损失。

这是一项至关重要的任务,但克利夫是一名业务分析师。为了完成他的工作,他需要进入正确的数据,他需要以思维的速度得到数据。但与许多公司一样,这是一个冒险的提议。数据由组织中的多个团队管理和保护。这里举几个例子。

  • 信息技术
  • 合规
  • 法律
  • 技术安全
  • 数据管理员/数据科学家
  • 金融

这是最基本的部落知识,为了突破这一困境,Cliff需要确定哪些数据是可用的,以及在哪里可以找到最好、最值得信赖的版本。它需要安全性来授予访问权限,遵从性来确保访问不违反行业要求,技术人员提取不同的源和格式,数据科学家帮助建立谱系和透明度,等等。

这就是为什么我们Collibra如此亚愽视频强烈地倡导数据民主,这是数字转型的真正支柱。数据必须属于每一个知识工作者或数据公民,以这样一种方式在系统中流动,使业务专业人员能够按照个人风格和优先级进行连接、沟通和协作。它可以是随机的,也可以是自动的,可以是扩展的,也可以是重新聚焦的,但它必须是可信的和相关的。作为一名业务分析师,Cliff知道当他拥有良好的、值得信赖的数据时该做什么,但是从哪里开始搜索,如何获得许可,谁可以使用SQL、Python、R等技术帮助提取和转换数据,何时以及由谁授予批准,等等。

在某些方面,他和我们其他人一样——一个信息消费者,一个寻找正确数据的在线购物者。他想浏览货架,比较不同的产品,在购物车里装上几样,然后回家制定计划。他在生活中的其他活动中也是这样做的;为什么这个练习不能这么简单呢?

准备好了,让我们跟随Cliff开始他的数据智能之旅的12步…

步骤1:构建业务术语表

我们需要一种共同的语言来相互理解。这与国籍、编程工具甚至不同的数据源无关。它指的是,几乎在任何一家规模相当大的公司,都有多种方式来表达同一件事。企业中不同的支持者使用相同的术语来表示不同的事情。例如,什么是客户?如何计算唯一客户的数量?不管你问谁,你都会得到同样的答案吗?没有一个业务术语表,答案很可能是“不”。

这种差异引发了困惑:像Cliff这样的人无法找到他们需要的数据,或理解特定的分类,或协调不同数据集之间的差异。缺乏共同理解会侵蚀信任,阻碍组织绩效,并挑战特定业务决策的可信度。

业务术语表成为您公司的语义翻译器。强迫大型组织中的每个人都采用一种新语言是不可取的;但是,帮助组织中的每个人学习如何使用语义翻译器与其他人沟通将导致清晰,高效和更好的理解。业务用户可以本能地、直观地找到他们想要的东西,而不必掌握表、字段、列名和元数据——实际上,他们自己也不必成为数据科学家。它通过提供所有业务术语及其相关数据、元数据和数据沿袭的全面视图来提高透明度。

从任何角度和理解,Cliff都可以使用自然语言开始他的旅程。Cliff可以从“客户流失”这样的术语开始,不仅可以查看已批准的定义,还可以查看公司所有部门、业务部门等如何定义它,哪种类型的数据最适合用于理解它,并使用Collibra的数据情报服务,Cliff将会发现在哪里可以找到支持他的分析的最佳数据。亚愽视频

步骤2:建立数据域模型

每一家公司,无论是公共的还是私人的,营利性的还是非盈利的,都有一个共同的需求,那就是确定自己使命中最重要的东西。这些“东西”是公司的焦点,通常最好用名词来描述,比如客户、员工、产品和地点。我们称之为域,它们作为每个关键名词的逻辑表示,这些关键名词推动您的业务,并为您希望考虑的任何分析建立上下文。

让我们以Customer域为例。在任何规模的组织中,特别是向客户提供多种产品或服务的组织中,您可能会发现两个或多个系统或应用程序捕获并存储关于客户的信息。虽然它们存储了大量相同的信息,但这些不同的系统可能不会以相同的方式存储这些信息,也不会对相同类型的信息使用相同的名称。例如,假设部门A使用Salesforce进行销售自动化,部门B使用Netsuite CRM。两种SFA解决方案亚愽体育app下载都捕获有关客户的信息,但它们的底层数据库并不以相同的方式组织或引用信息(通常称为属性或字段)。Salesforce可能将出生日期引用为“DOB”,并将其存储在与客户姓名相同的表中,而Netsuite CRM可能将其引用为“Birth_Date”,并将其存储在不包含客户姓名的表中。

客户的逻辑表示可以帮助您的组织将环境中部署的许多系统和应用程序之间的差异合理化,以形成一个公共或共享的描述和结构。就像Business Glossary提供了语义翻译器一样,Domain模型也为您提供了对您的公司最重要的东西的一致和通用表示。而且,对于域模型中的每个逻辑属性或字段,您可以将其与业务术语表术语相关联,以帮助Cliff立即将自然语言术语(如搅动)关联到数据智能图上的起点。

有许多事情可以与您的逻辑域相关联,这将有助于自动化并确保您的组织如何管理的一致性,确保合规性并提高整个数据驱动业务的生产力。例如,当您对Customer Domain建模时,您可以识别每个逻辑属性,这些属性是个人身份信息,如全名、SSN、电子邮件地址等。这将有助于在整个组织中塑造数据的使用、访问和监控方式。

数据域是数据智能宇宙的中心,并提供了与任何其他概念、数据、报告、算法、API或其他在数据智能图中管理的强大且可传递的关系。

步骤3:定义策略管理和引用管理

是什么数据治理?关于这一定义,不乏观点、文章和坚定的信念。许多是自私自利的,大多数不是完全正确或完全错误的,但它们都有一个共同点,即数据治理是建立和执行以数据为中心的策略的实践。我们认为这些是正确使用和管理数据的指南,有助于确保整个公司的一致性。

角色与责任,数据所有权,数据使用协议,保留和销毁政策,以及更多作为执行和遵守规则的框架,包括公司定义的以及监管机构定义的规则,以便您的公司在涉及所有数据实践时保持合规,高效和值得信赖。

虽然没有直接关系,但推动数据智能之旅的另一个基本概念是创建和管理健全的参考数据管理解决方案。参考数据是定义其他数据字段使用的允许值的数据。例如,当您在在线表单中输入地址时,与输入自由表单相比,您可能被限制为国家列表。这个国家列表是参考数据的一个例子。正如我们在领域建模中讨论的那样,不同的系统和应用程序可能有不同的命名和组织数据字段的方式,因此不同的系统和应用程序可能使用不同的代码或值来定义它们的引用数据。将这些不同的代码和值映射到一个公共或共享的代码和值集,可以围绕不同的数据生态系统翻译和解释数据。

“数据智能之旅”的前三步并不性感,可能会让人感觉有点麻烦。也就是说,它们绝对是基础的,如果做得好,你就为一个长期存在的、战略性的数据智能计划奠定了基础。忽略或匆忙完成这些基本步骤将会变成一个短命的战术项目,与任何带有“情报”字样的项目都是对立的。

我们还有几步要走,所以请继续关注。

想了解更多关于数据智能的知识吗?

阅读我们下一篇关于数据智能的博客

相关资源亚博 在线

电子书

Collibra数据智能亚愽视频云介绍

博客

数据智能的12步:第3部分

博客

数据智能的12步:第4部分

博客

数据智能的12步:第5部分

查看所有资源亚博 在线

更多像这样的故事

2021年3月17日-4最小值

如何构建业务术语表

阅读更多
箭头
2021年3月3日-4最小值

什么是业务术语表?

阅读更多
箭头
亚愽视频Collibra与洛克希德马丁公司在Tableau用户会议上
2019年11月22日3.最小值

回顾:洛克希德·马丁公司成为数据驱动的旅程

阅读更多
箭头