数据质量的6个维度

楼梯从一个高的观点。

测量数据质量理解是至关重要的,如果你想使用企业数据操作和分析应用程序中的自信。只有高质量的数据能准确分析,进而可以信任的商业决策。

据一位Gartner估计,可怜的数据质量会导致额外的花费15美元的年平均成本。尽管它不只是经济上的损失。数据质量差影响你的组织在多个级别:

  • 处理成本高:规则十州花费十倍来完成一个工作单元有缺陷的数据时比数据时是完美的
  • 不可靠的分析:信心较低的报告和分析,底线管理绝非易事
  • 可怜的公司治理和合规风险:遵从性不再是可选的,和企业的生存变得具有挑战性
  • 品牌价值的损失:当组织不断地做出错误的操作和决策,品牌价值下降迅速

坏质量数据影响一个组织的业务战略,促进经济增长和推动创新。最直接的问题是组织如何衡量数据质量和找到改进的方法。

与Collibra灵感来自洛克希德·马丁公司的数据驱动转换的帮助。亚愽视频读客户故事并学习如何实现类似的结果!

数据质量如何测量?

数据质量可能很容易辨认,但很难确定。例如,无名氏先生的条目在数据库打开几个可能性的两倍。也许有两个同名的人。或者,同一个人的名字输入错误。它还可以的情况下迁移或集成后的数据库没有被验证。高质量的数据消除歧义和确保每个实体表示正确的和独特的。在另一个例子中,John Doe先生的条目,滑铁卢,是不完整的没有这个国家的名字。如果数据集显示无名氏先生的高度为6米,它可以是一个错误的测量单位。

这些数据质量的例子证明你不能依赖一个指标来衡量数据质量。您可以考虑多个属性的数据得到正确的上下文和数据质量度量方法。例如,患者医疗数据必须完整,准确,必要时可用。营销活动,需要独特的客户数据,准确、一致的所有接触渠道。数据质量维捕捉特定于您的环境的属性。

什么是数据质量维?

数据质量维度测量的属性数据,你可以单独评估,解释,并改善。聚合多个维度的分数代表着特定的上下文和数据质量指示数据使用的健身。

平均,47%的最近创建的数据记录至少有一个关键,work-impacting,错误。高质量的数据是异常,只有3%的DQ分数评价可接受(可接受性分数> 97%)。所以,只有3%的公司的数据满足基本质量标准。

大量数据质量维通常用百分比表示,设置参考用途。例如,当您使用87%准确的病人数据处理账单,13%的数据不能保证你正确的账单。在另一个例子,一个52%完成客户数据集意味着较低的计划活动的信心达到正确的目标市场。您可以定义可接受的水平的得分数据中用于建造更多的信任。

数据质量维作为指导,以选择最合适的数据集。当面对两个数据集的准确性和92%的准确率79%,分析师可以选择精度较高的数据集,以确保他们的分析有一个更加可信的基础。

数据质量的6个维度是什么?

你可以测量数据质量在多个维度上相同或不同的权重,通常使用以下六个关键维度。

1。完整性

这个维度可以覆盖各种属性取决于实体。对客户数据,这显示了最小信息必不可少的一种高效的参与。例如,如果客户地址包含一个可选的具有里程碑意义的属性,数据可以被认为是完成即使具有里程碑意义的信息是缺失的。

对于产品或服务,完整性可以显示重要属性,帮助客户进行比较和选择。如果一个产品描述不包括任何交付估计,它是不完整的。金融产品通常包括历史性能细节为客户评估符合他们的需求。如果数据完整性措施足以提供有意义的推断和决策。

2。精度

数据精度的水平代表了真实的场景中,证实可核查的来源。数据精度确保相关的真实世界的实体可以按计划参与。准确的电话号码一个员工保证员工总是可及。不准确的出生细节,另一方面,可以剥夺员工的某些好处。

测量数据精度要求验证与真实的引用,如出生记录或实际的实体。在某些情况下,测试可以保证数据的准确性。例如,您可以验证客户银行信息与从银行证书,或处理事务。数据的准确性是非常影响如何保存数据通过其整个旅程,和成功数据治理可以促进这一维度的数据质量。

数据精度高可以事实正确报告和可信赖的业务成果。精度非常关键的高度管制的行业,如医疗和金融。

3所示。一致性

这个维度代表如果相同的信息存储和使用多个实例匹配。它是表示为匹配值的百分比在不同的记录。数据一致性保证分析正确地捕获和利用数据的价值。

一致性是很难评估,需要跨多个数据集的测试计划。如果一个企业系统单独使用一个客户的电话号码与国际代码,和另一个系统使用前缀的国际代码,这些格式不一致可以很快解决。然而,如果底层信息本身是不一致的,解决可能需要验证与另一个来源。例如,如果一个病人记录将出生日期为5月1日,另一个记录显示是6月1日,你可能首先需要评估来自数据源的数据的准确性。数据一致性是常与数据准确性,以及任何数据集得分高都将是一个高质量的数据集。

4所示。有效性

这个维度意味着价值属性可用于特定领域或要求看齐。例如,邮政编码是有效的,如果他们包含正确的字符区域。在一个日历,几个月都是有效的,如果他们匹配标准的全局名称。使用业务规则是一个系统化的方法来评估数据的有效性。

任何无效的数据会影响数据的完整性。您可以定义规则忽视或解决无效数据,以确保完整性。

5。独特性

这个维度表示如果是单个记录实例中使用的数据集。独特性是最关键的尺寸,以确保没有重复或重叠。数据唯一性来衡量所有的记录一个数据集内或跨多个数据集。高独特性分保证最小化重复或重叠,建立信任的数据和分析。

识别重叠可以帮助保持独特性,而数据清理和重复数据删除技术可以解决重复记录。独特的客户档案走很长的路在进攻和防御策略的客户参与。数据唯一性也提高了数据治理和加速依从性。

6。完整性

跨系统数据的旅程和转换会影响其属性的关系。完整性表示属性维护正确,即使数据存储和在不同的系统中使用。数据完整性确保所有企业数据可以追踪和连接。

数据完整性的影响关系。例如,一个客户概要文件包括客户名称和一个或多个客户地址。以防一个客户地址失去完整性数据在某个阶段旅程,会变得不完整,相关的客户概要,无效。

当你经常遇到这六个数据质量维,更多的维度可以代表独特的属性数据。根据上下文,您也可以考虑数据符合标准(数据值符合指定的格式吗?)确定数据质量数据质量是多方面的和紧密的联系数据情报代表您的组织如何理解和使用数据。

测量数据质量维可帮助您识别的机会来提高数据质量。您可以使用数据质量规则来确定数据是否适合使用和需要改进的地方。规则确保数据准确地代表了现实世界的实体,完全一致。快速自动规则帮助确定数据错误,并提供一个不断更新的状态数据的健康。

这里用处不大,自适应规则和连续ML-based方法,亚愽视频Collibra数据质量和可观察性带给你可信的数据驱动实时,一致的,创新的商业决策。虽然大多数质量工具仅提供技术规则,Collibra还使您能够定义业务规则,以解决特定领域的需求。亚愽视频

的6个维度数据质量和相关的每个维度的相关问题。

如何确保数据的质量和完整性?

在最近的出版物,《福布斯》杂志指出,84%的ceo们都关心数据的完整性他们把他们的决定。这句话很重要从多少价值的角度与数据的完整性。

数据完整性和数据质量的作用往往是令人困惑的。数据质量关注的准确性、完整性和其他属性以确保数据是可靠的。数据的完整性,另一方面,使这个可靠的数据有用。它增加了上下文关系和丰富的数据为提高其有效性。

数据完整性和数据质量的区别是它们提供的价值。数据质量是值得信赖的业务决策的基础,而数据的完整性需要更高一级提供更好的业务决策。

确定数据质量是一个持续的任务,需要企业范围的标准和可伸缩ML-enabled工具,实时评估。数据质量标准记录协议表示,格式,和公共数据的定义,以及实现数据质量的目标和范围。共享的标准是必不可少的理解和成熟的开发数据质量的方法。定义良好的数据质量标准还支持快速符合进化数据规则。

数据质量检查确定指标,解决质量和完整性。

常见的数据质量检查包括:

  • 识别重复或重叠的独特性。
  • 检查必填字段,null值,缺失值识别和修正数据完整性。
  • 应用格式检查一致性。
  • 使用业务规则和一系列的值或默认值和有效性。
  • 检查最近的数据是如何最后更新的时候确定近因或新鲜的数据。
  • 验证行、列、整合和价值检查完整性。

除了准确性:数据质量意味着什么数据消费者

数据质量从数据生产者和管理者的角度主要集中于准确性。匹配数据尽可能真实世界的实体是他们的目标。他们的数据清洗、修复和管理的努力指向提高数据的准确性。

数据使用者的角度看,我们应该添加三个维度数据质量。当消费者购买质量数据,他们的挑战更面向供应链的数据。他们的第一个要求是数据可访问性。他们想知道数据驻留在哪里以及如何检索它。

他们的下一个问题是及时性。数据是在使用它的价值。访问数据没有价值如果不及时使用。当需要及时性定义如果数据是可用的。可信数据实时或接近实时的可以减少错误和简化操作流程。及时的数据可用性可以推动成功的商业创新和保持竞争优势。

数据消费者希望当他们需要访问数据,和他们想要的最近期的数据项目。

金字塔象征着如何可以访问,及时和相关数据会导致数据的准确性。

来源:Gartner(2020年8月)——数据质量基础数据及分析技术的专业人士

一旦消费者满意数据可访问性和及时性,注意力转向相关性。他们想买正确的数据符合他们的需求。他们不想浪费他们的努力不能马上他们的计划项目相关的数据。才有数据的准确性,确保所选数据正确交付结果。

超越准确性,数据生产者和消费者共同需要发展的战略审视数据质量。数据使用者必须定义什么是最重要和最重要的数据的创造者必须专注于交付。他们需要评估的因素影响有效的数据购物,并询问以下问题:

  • 数据是否清楚?
  • 它是由数据情报吗?
  • 有足够的数据吗元数据了解他们可以利用数据具体分析?
  • 他们可以访问数据沿袭作为数据来源和经过聚合之间的移动,操作和转换?

才可以成功地解决数据质量和持续改进。

想要了解更多关于Collibra数据质量?亚愽视频

安排一个数据评估

相关资源亚博 在线

博客

什么是数据质量和为什么它很重要?

博客

数据质量和数据治理:从哪里开始?

博客

数据质量维度:他们如何满足你公司的需要?

视频/网络研讨会

亚愽视频Collibra数据智能云

查看所有资源亚博 在线

更多的故事

2023年4月11日7最小值

不要让坏数据拖累你:零售商的指南

阅读更多
箭头
3月17日,2023年6最小值

高质量的数据是环境、社会和治理的基础

阅读更多
箭头
2023年2月1日6最小值

为什么投资数据质量和可观察性

阅读更多
箭头