数据质量的6个维度

从高处向下的楼梯。

测量数据质量如果您想在操作和分析应用程序中自信地使用企业数据,理解这一点至关重要。只有高质量的数据才能促进准确的分析,从而推动可靠的业务决策。

据一位Gartner估计,可怜的数据质量可能导致平均每年1500万美元的额外支出。虽然这不仅仅是经济损失。数据质量差会在多个层面影响您的组织:

  • 较高的加工成本:十法则当数据有缺陷时,完成一个单位工作的成本是数据完美时的十倍
  • 不可靠的分析:由于对报告和分析的信心较低,底线管理从来都不是一件容易的事
  • 糟糕的治理和遵从性风险:遵从性不再是可选的,没有它们,业务生存将面临挑战
  • 品牌价值的丧失:当组织不断地进行错误的运营和决策时,品牌价值会迅速下降

糟糕的数据质量会影响一个组织促进增长和推动创新的业务战略。最直接的问题是组织如何衡量数据质量并找到改善数据质量的方法。

如何衡量数据质量?

数据质量可能很容易识别,但很难确定。例如,在数据库中两次输入John Doe先生,就有几种可能性。也许有两个人名字一样。或者,再次错误地输入同一个人的名字。也可能是数据库在迁移或集成之后没有得到验证。高质量的数据消除了这种歧义,并确保每个实体都被正确且唯一地表示。在另一个例子中,约翰·多伊先生的词条滑铁卢没有国家的名字是不完整的。如果数据集显示John Doe先生的高度为6米,则可能是测量单位的错误。

这些数据质量示例演示了如何不能仅依赖一个指标来衡量数据质量。您可以考虑数据的多个属性,以获得正确的上下文和数据质量的度量方法。例如,医疗保健中的患者数据必须完整、准确且在需要时可用。对于营销活动,客户数据需要在所有参与渠道中是唯一的、准确的和一致的。数据质量维度捕获特定于上下文的属性。

什么是数据质量维度?

数据质量维度是数据的度量属性,您可以单独对其进行评估、解释和改进。多个维度的聚合分数表示特定上下文中的数据质量,并指示数据的适用性。

平均在美国,47%最近创建的数据记录至少有一个严重的、影响工作的错误。高质量的数据是例外,只有3%的DQ评分被评为可接受(>的可接受评分为97%)。因此,只有3%的公司数据符合基本质量标准。

数据质量维度的分数通常以百分比表示,百分比设置了预期用途的参考。例如,当您使用87%的准确患者数据来处理账单时,13%的数据不能保证您的账单是正确的。在另一个例子中,52%完整的客户数据集意味着对计划的活动达到正确目标细分市场的信心较低。您可以定义可接受的分数级别,以建立对数据的更多信任。

数据质量维度是选择最合适数据集的指南。当面对准确率为79%和92%的两个数据集时,分析师可以选择准确率更高的数据集,以确保他们的分析具有更可信的基础。

数据质量的六个维度是什么?

您可以用相同或不同的权重在多个维度上度量数据质量,通常使用以下六个关键维度。

1.完整性

这个维度可以涵盖各种属性,具体取决于实体。对于客户数据,它显示了生产活动所必需的最小信息。例如,如果客户地址包含可选的地标属性,则即使缺少地标信息,也可以认为数据是完整的。

对于产品或服务,完整性可以提供帮助客户进行比较和选择的重要属性。如果一个产品描述不包括任何交货估计,它是不完整的。金融产品通常包括历史业绩细节,以供客户评估是否符合他们的要求。完整性度量数据是否足以提供有意义的推断和决策。

2.精度

数据准确性是指数据代表现实场景并通过可验证的来源进行确认的水平。数据的准确性确保了相关的现实世界实体可以按计划参与。准确的员工电话号码可以保证随时可以联系到员工。另一方面,不准确的出生细节可能会剥夺员工的某些福利。

测量数据准确性需要使用真实的参考资料(如出生记录或实际实体)进行验证。在某些情况下,测试可以保证数据的准确性。例如,您可以根据银行的证书验证客户的银行详细信息,或者通过处理事务来验证。数据的准确性在很大程度上取决于数据在整个过程中如何成功地保存数据治理可以提升这个维度的数据质量。

高数据准确性可以为正确的报告和可信的业务结果提供动力。准确性对于医疗保健和金融等高度监管的行业至关重要。

3.一致性

这个维度表示在多个实例中存储和使用的相同信息是否匹配。它表示为各个记录中匹配值的百分比。数据一致性确保分析正确地捕获和利用数据的价值。

一致性很难评估,需要跨多个数据集进行计划测试。如果一个企业系统单独使用带有国际代码的客户电话号码,而另一个系统使用带前缀的国际代码,则可以快速解决这些格式不一致的问题。但是,如果基础信息本身不一致,则可能需要与其他来源进行验证。例如,如果一个患者记录显示出生日期为5月1日,而另一个记录显示为6月1日,您可能首先需要评估来自两个来源的数据的准确性。数据一致性通常与数据准确性相关,任何在这两方面得分较高的数据集都是高质量的数据集。

4.有效性

这个维度表示值属性可以与特定的域或需求保持一致。例如,如果邮政编码包含区域的正确字符,那么邮政编码就是有效的。在日历中,如果月份与标准全局名称匹配,则月份有效。使用业务规则是评估数据有效性的系统方法。

任何无效的数据都会影响数据的完整性。您可以定义规则来忽略或解析无效数据,以确保完整性。

5.独特性

这个维度表示它是否是所用数据集中的单个记录实例。唯一性是确保没有重复或重叠的最关键维度。数据唯一性是针对一个数据集中或跨数据集中的所有记录进行测量的。高唯一性得分可确保重复或重叠最小化,从而建立对数据和分析的信任。

识别重叠有助于保持唯一性,而数据清理和重复数据删除可以修复重复的记录。独特的客户档案对客户参与的攻防战略大有帮助。数据唯一性还改善了数据治理并加快了遵从性。

6.完整性

跨系统的数据传输和转换会影响其属性关系。完整性表示正确地维护属性,即使在不同的系统中存储和使用数据。数据完整性确保所有企业数据可以被跟踪和连接。

数据完整性影响关系。例如,客户配置文件包括客户名称和一个或多个客户地址。如果某个客户地址在数据旅程的某个阶段失去了完整性,则相关的客户配置文件可能会变得不完整和无效。

而你经常会遇到这六种数据质量维度,可以使用更多的维度来表示数据的不同属性。根据上下文,还可以考虑数据是否符合标准(数据值是否符合指定的格式?)来确定数据质量数据质量是多维度和紧密联系的数据情报,表示您的组织如何理解和使用数据。

测量数据质量维度可以帮助您确定改进数据质量的机会。您可以使用数据质量规则来确定数据是否适合使用,以及在哪些方面需要改进。规则确保数据准确、完整、一致地表示现实世界的实体。自动化规则有助于快速识别数据错误,并不断更新数据运行状况。

通过自动发现、自适应规则和基于ml的连续方法,亚愽视频数据质量和可观察性为您提供可靠的数据,以推动实时、一致、创新的业务决策。虽然大多数质量工具只提供技术规则,但Collibra还允许您定义业务规则,以解决特定于领域的需求。亚愽视频

数据质量的6个维度以及与每个维度相关的相关问题。

如何确保数据的质量和完整性?

在最近的一份出版物中,福布斯指出84%的ceo关心数据的完整性他们在此基础上做出决定。从与数据完整性相关的价值的角度来看,这句话很重要。

数据完整性与数据质量的角色常常令人困惑。数据质量侧重于准确性、完整性和其他属性,以确保数据是可靠的。另一方面,数据完整性使这些可靠的数据变得有用。它添加了关系和上下文来丰富数据,以提高其有效性。

数据完整性和数据质量之间的区别在于它们所提供的价值水平。数据质量是可靠的业务决策的基础,而数据完整性则是提供更好的业务决策的基础。

确定数据质量是一项持续的任务,需要企业范围的标准和支持ml的工具来进行可伸缩的实时评估。数据质量标准已经就公共数据的表示、格式和定义以及实现数据质量的目标和范围达成了文件化协议。这些标准对于达成共识和提供数据质量的成熟方法至关重要。定义良好的数据质量标准还能够快速遵守不断变化的数据法规。

数据质量检查确定同时处理质量和完整性的度量。

常见的数据质量检查包括:

  • 识别重复或重叠的唯一性。
  • 检查强制字段、空值和缺失值,以确定和修复数据完整性。
  • 应用格式检查一致性。
  • 使用具有范围值或默认值和有效性的业务规则。
  • 检查数据最近的时间或最近一次更新的时间可以确定数据的最近性或新鲜度。
  • 验证行、列、一致性和值的完整性检查。

超越准确性:数据质量对数据消费者意味着什么

从数据生产者和管理者的角度来看,数据质量主要集中在准确性上。他们的目标是将数据尽可能地与现实世界的实体相匹配。他们的数据清理、修复和管理工作都是为了提高数据的准确性。

数据消费者的观点,我们应该为数据质量增加三个维度。当数据消费者购买高质量数据时,他们的挑战更多地面向数据供应链。他们的第一个要求是数据可访问性.他们想知道数据驻留在哪里以及如何检索数据。

他们的下一个担忧是及时性.数据的价值在于使用它。可访问的数据如果不能及时使用就没有价值。及时性定义了数据在需要时是否可用。实时或接近实时的可信数据可以减少错误并简化操作流程。及时的数据可用性可以推动成功的业务创新并保持竞争优势。

数据消费者希望在他们需要的时候访问数据,他们希望最新的数据为他们的项目提供动力。

金字塔象征着数据的可访问性、及时性和相关性如何导致数据的准确性。

来源:Gartner (Aug 2020) -数据和分析技术专业人员的数据质量基础

一旦数据消费者对数据的可访问性和及时性感到满意,他们的关注点就会转移到相关性.他们希望购买正确符合他们需求的数据。他们不希望把精力浪费在与计划项目不直接相关的数据上。只有这样才能保证数据的准确性,从而确保所选数据能够正确地传递结果。

除了准确性之外,数据生产者和消费者还需要共同制定一种重新考虑数据质量的策略。数据使用者必须定义什么是最重要的,而数据创造者必须专注于交付最重要的数据。他们需要评估影响有效数据购买的因素,并提出以下问题:

  • 数据是否被充分理解?
  • 它是由数据情报吗?
  • 数据是否充足元数据了解他们如何使用数据来支持他们的具体分析?
  • 他们能进入吗数据沿袭当数据在数据源之间移动并经过聚合、操作和转换时?

只有这样,才能成功地解决数据质量问题并不断改进。

想了解更多关于Collibra数据质量的信息吗?亚愽视频

安排数据评估

相关资源亚博 在线

博客

什么是数据质量?为什么它很重要?

博客

数据质量和数据治理:从哪里开始?

博客

数据质量维度:它们如何满足公司的需求?

视频/网络研讨会

亚愽视频Collibra数据智能云

查看所有资源亚博 在线

更多像这样的故事

2022年12月22日-3.最小值

可观察性:数据质量的下一个演变

阅读更多
箭头
2022年12月13日-5最小值

升级:雪花+ Collibra:扩大平台治理范围…亚愽视频…

阅读更多
箭头
2022年12月5日4最小值

成功实现数据质量和可观察性解决方案

阅读更多
箭头