7个最常见的数据质量问题

数据驱动型组织依赖现代技术和人工智能来最大限度地利用其数据资产。但他们一直在与数据质量问题作斗争。不完整或不准确的数据,安全问题,隐藏的数据-列表是无穷无尽的。几项调查显示成本损失的程度横跨许多垂直领域由于与数据质量相关的问题。

商业中数据质量差的一些例子包括:

  • 拼写错误的客户名称,导致错失与客户沟通和创造收入的机会。
  • 关于区域偏好的信息不完整或过时,导致无法打开新的商业市场。
  • 患者的紧急联系号码丢失或旧,导致无法获得紧急医疗护理的同意。

数据质量的影响直接体现在收入下降和运营成本上升上,两者都会导致财务损失。数据质量极大地影响组织在治理和遵从性方面的工作,导致额外的返工和延迟。Gartner的数据质量市场调查显示糟糕数据的平均年度财务成本高达1500万美元.调查还显示,糟糕的数据质量实践破坏了数字创新,削弱了竞争地位,并影响了客户信任。

最常见的数据质量问题是什么?

数据质量差是机器学习的广泛应用和盈利的头号敌人.如果你想让像机器学习这样的技术为你工作,你需要高度关注数据质量。在这篇博文中,让我们讨论一些最常见的数据质量问题以及如何解决它们。

1.重复数据

现代组织面临着来自四面八方的数据冲击——本地数据库、云数据湖和流数据。此外,它们可能有应用程序和系统竖井。这些资料来源必然有很多重复和重叠。例如,重复的联系方式会极大地影响客户体验。如果错过了一些潜在客户,而有些可能会一次又一次地联系,营销活动就会受到影响。重复数据增加了分析结果偏斜的可能性。作为训练数据,它也可以产生倾斜的ML模型。

基于规则的数据质量管理可以帮助您检查重复和重叠的记录。与预测DQ,规则是自动生成的,并通过从数据本身中学习不断改进。预测DQ识别模糊和精确匹配的数据,将其量化为重复的可能性分数,并有助于在所有应用程序中提供持续的数据质量。

2.不准确的数据

数据的准确性对于医疗等高度监管的行业至关重要。看看最近的经验,需要提高COVID-19和随后大流行的数据质量比以往任何时候都更加明显。不准确的数据不能给你一个正确的真实情况,也不能帮助你计划适当的反应。如果你的客户数据不准确,个性化的客户体验就会令人失望,营销活动就会表现不佳。

数据的不准确性可以追溯到几个因素,包括人为错误、数据漂移和数据衰减。Gartner表示每个月大约有3%的数据会被损坏在全球范围内,这是非常令人担忧的。随着时间的推移,数据的质量可能会降低,并且数据在跨各个系统的过程中可能会失去完整性。自动化数据管理可以在一定程度上帮助您,但专用的数据质量工具可以提供更好的数据准确性。

预测性、连续性和自助DQ,您可以及早发现数据质量问题在数据生命周期中,并主动修复它们以支持可信分析。

3.模糊的数据

在大型数据库或数据湖中,即使在严格的监督下,一些错误也会悄悄出现。这种情况对于高速数据流来说更加难以承受。列标题可能会误导人,格式可能会有问题,拼写错误可能不会被发现。这种模棱两可的数据可能会给报告和分析带来多种缺陷。

使用自动生成的规则进行持续监控,预测性DQ通过在问题出现时立即跟踪问题来快速解决歧义。它为实时分析和可信结果提供了高质量的数据管道。

4.隐藏数据

大多数组织只使用其数据的一部分,而其余的可能丢失在数据筒仓中或被丢弃在数据墓地中。例如,销售中可用的客户数据可能无法与客户服务团队共享,从而失去了创建更准确和完整的客户简介的机会。隐藏的数据意味着错过了发现改善服务、设计创新产品和优化流程的机会。

如果隐藏数据是您组织的数据质量问题,请信任自动发现的预测性DQ以及能力发现隐藏的关系(例如跨列异常和“未知未知”)。考虑投资一个数据目录解决方案。一流的公司就是这样拥有专用数据目录解决方案的可能性增加30%最近的一项调查得出结论。

5.不一致的数据

当您使用多个数据源时,不同数据源之间的相同信息很可能存在不匹配。这些差异可能是格式、单位,有时是拼写。在迁移或公司合并过程中也会引入不一致的数据。如果不经常协调,数据中的不一致往往会积累并破坏数据的价值。数据驱动型组织密切关注数据一致性,因为他们只希望为分析提供可信数据。

连续DQ自动配置数据集,突出质量问题每当数据发生变化时。对于DataOps,全面的仪表板有助于通过影响排名快速确定分类优先级。自适应规则不断地从数据中学习,确保从源头解决不一致的问题,而数据管道只提供可信的数据。

6.数据太多

我们专注于数据驱动分析及其好处,太多的数据似乎并不是数据质量问题。但事实确实如此。当您在寻找与分析项目相关的数据时,可能会迷失在太多的数据中。业务用户、数据分析师和数据科学家会花钱80%的时间定位正确的数据并进行准备。其他数据质量问题随着数据量的增加而变得更加严重,特别是对于流数据和大文件或数据库。

如果你正在努力理解来自不同来源的海量和各种各样的数据,我们有答案。无需移动或提取任何数据预测DQ可以无缝扩展并跨多个源提供持续的数据质量。有了全自动的概要分析、异常值检测、模式更改检测和模式分析,您不需要担心太多的数据。

7.数据停机时间

数据驱动型公司依靠数据来推动他们的决策和运营。但是,当他们的数据不可靠或没有准备好时(特别是在并购、重组、基础设施升级和迁移等事件期间),可能会有很短的持续时间。这种数据停机会在很大程度上影响公司,包括客户投诉和糟糕的分析结果。根据一项研究,数据工程师大约80%的时间花在更新、维护和确保数据管道的质量上。的从数据采集到洞察需要很长时间提出下一个商业问题会产生很高的边际成本。

数据停机的原因从模式更改到迁移问题各不相同。数据管道的复杂性和规模也具有挑战性。关键是要持续监控数据停机时间,并通过自动化解决方案将其最小化。亚愽体育app下载

问责制和设置sla有助于控制数据停机时间。但您真正需要的是一种全面的方法来确保对可信数据的持续访问。的预测性DQ可以跟踪问题持续交付高质量的数据管道,随时为运营和分析做好准备。

除了上述问题外,组织还会与非结构化数据、无效数据、数据冗余和数据转换错误作斗争。

最常见的数据质量问题语句

数据质量问题陈述 描述
如果我的数据突然有变化就告诉我 任何突然打破过去趋势的列、模式或单元格值。将需要数以千计的条件语句和它们的持续管理,除非您为自动更改控制做行为分析。
这一列中有多少种电话号码格式? 这个DQ问题在STRING或VARCHAR字段中很常见,在这些字段中您可以使用许多不同的格式。例如,邮政编码或电话号码或社会安全号。它有助于查找大多数格式并显示组成列值的topN数据形状。这有助于识别错别字和奇怪的格式。
我的行数是否在任何数据集上下降? 了解数据集的容量是否下降(也称为行数下降)可能很重要。当数据集的行数突然比正常情况少时,可能意味着文件或表中缺少数据。
NULL值问题 空检查是根据列的过去行为或描述性统计数据生成的。
我需要检测每个分组的异常值。 有时,基本列级离群值不能解决问题。当用户希望找到相对于总体的异常数值时,将应用此方法。
我需要DQ在我的数据管道。 我已经在Python或Scala或Spark中有一个数据管道,并想控制DQ操作。有些人称之为ETL管道,使之成为ETLQ。
比尔·盖茨和威廉·盖茨的模糊匹配问题 这个问题不适用于条件语句。您需要选择列的任何分组并找到精确或相似的记录(模糊匹配)。这可以在列级或记录级完成。通过模糊匹配或精确匹配识别数据集中的重复或冗余数据。
我需要比较两张表。 在将数据从文件加载到数据库表或从源数据库加载到目标数据库时,通常需要进行验证,以识别跨表或系统的缺失记录、值和损坏的关系。
我想看看我所有的数据错误存在的热图。 将盲点热图按时间、业务单位和计划的工作可视化。
在我的数据集中,州和邮政编码不属于彼此。 通过识别跨列异常定义关系。通常用于层次和父/子错误映射。

如何修复数据质量问题?

数据质量是数据生命周期的一个关键方面。组织经常纠结于如何解决数据质量问题,因为没有快速解决方案。如果你想的话从源头解决数据质量问题,最好的方法是在组织数据策略中优先考虑它。下一步是让所有利益相关者参与进来,并使其能够为数据质量做出贡献。

最后,工具。选择具有智能技术的工具,以提高数据的质量并释放数据的价值。合并元数据在人物、内容、地点、原因、时间和方式的背景下描述和丰富数据。考虑数据情报以正确的方式理解和使用组织数据。

在评估数据质量工具时,寻找能够大规模交付持续数据质量的工具。连同它们一起使用数据治理而且数据目录确保所有利益相关者都能访问高质量、可信、及时的相关数据。

数据质量问题可以视为从根源上解决问题并防止未来损失的机会。通过对数据质量的共同理解,利用您可信的数据来改善客户体验,发现创新机会,并推动业务增长。

什么是数据质量检查?

数据质量检查首先定义质量度量,执行测试以确定质量问题,并在系统支持的情况下纠正问题。检查通常在属性级别定义,以确保快速测试和解决问题。

常见的数据质量检查包括:

  • 识别重复或重叠的唯一性。
  • 检查强制字段、空值和缺失值,以确定和修复数据完整性。
  • 应用格式检查一致性。
  • 评估有效值的范围。
  • 检查数据最近的时间或最近一次更新的时间可以确定数据的最近性或新鲜度。
  • 验证行、列、一致性和值的完整性检查。

可以将一些数据质量检查视为业务规则,以提供更好的领域焦点。例如,保险服务提供者可以计算出风险因素评估的范围,并将其包含在业务规则中。

数据质量检查示例根据垂直方向不同而不同。在医疗保健领域,可能会针对最后一次治疗或诊断检查患者数据的新鲜度。另一方面,对于外汇交易,新鲜度检查可以基于测试时间。

亚愽视频数据质量和可观察性通过自动发现规则,主动实时地发现质量问题。通过自动数据质量检查,您可以确保获得可靠的数据,从而推动可信的业务决策。

要了解更多关于Collibra数据质量的亚愽视频信息,请请求a现场演示

想了解更多关于Collibra数据质量的信息吗?亚愽视频

观看按需数据质量展示!

相关资源亚博 在线

博客

什么是数据质量?为什么它很重要?

博客

数据质量的6个维度

电子书

预测数据质量和可观察性

查看所有资源亚博 在线

更多像这样的故事

2022年12月22日-3.最小值

可观察性:数据质量的下一个演变

阅读更多
箭头
2022年12月20日-2最小值

更智能、更清洁、更快:AWS + Collibra帮助政府做出更亚愽视频好的决策

阅读更多
箭头
2022年12月19日-3.最小值

2023年的五大数据预测

阅读更多
箭头