规则的发现

使用规则模板的自定义数据发现和实施(数据概念和语义)
我们感动!为了改善客户体验,Collibra数据质量用户指南已转移到亚愽视频 亚愽视频Collibra文档中心 作为Collibra数据质量2亚愽视频022.11版本的一部分。为了确保平稳过渡, dq-docs.亚愽视频collibra.com 仍然可以访问,但DQ用户指南现在只在文档中心进行维护。

数据类别

数据类别是数据集的类别或族,例如,股票数据利率数据,等等。通过给出数据类别或对数据集进行分类,我们可以将共同理解、规则和ML转移(应用)到数据集。这允许数据管理员一次性设置概念,并使组织能够统一和标准化通用规则和术语,解决许多元数据规模的挑战。
数据集级别
安全参考数据-彭博财经数据-房屋贷款数据-按揭申请资料

数据类

列级
电子邮件,邮政编码,ssn, cusip,性别,地址,货币cd, sku, ein, IP地址,电话,许可证,vin,信用卡
数据类是数据集的列或属性的语义类型,例如电子邮件、邮政编码等。所有列都有一个物理类型,比如String、Int和Date,但是从语义上理解列中是什么类型的String非常重要。数据类允许Collibra Data 亚愽视频Quality开箱执行DQ验证规则。
亚愽视频Collibra Data Quality的语义扫描自我识别标准列,并自动提供适当的保护。这使得开始为特定用例添加公共规则变得很容易。
亚愽视频Collibra Data Quality提供开箱即用的规则,用于单击规则创建

运行发现

运行发现莫代尔,你可以运行DQ扫描检测指定给选定数据概念的语义。如果一个列匹配两个或多个数据类,运行发现算法自动选择最佳匹配。数据类匹配条件由匹配百分比和名称距离决定。
您可以通过以下方式访问运行发现功能:
  • 目录
  • DQ工作

通过目录

  1. 1
    目录,选择您的数据集。
  2. 2
    行动下拉菜单,单击数据的概念
  3. 3.
    控件中选择一个选项数据的概念下拉菜单,点击运行发现

通过DQ Job

  1. 1
    DQ工作页,选择您的DQ作业。
  2. 2
    单击规则标签在你的DQ工作。
  3. 3.
    单击规则的发现按钮。
  4. 4
    数据的概念窗口,选择您的数据概念。
  5. 5
    点击运行发现

敏感数据

列级
PII-个人身份信息MNPI-重大非公开信息一种总线标准-信用信息,如信用卡号码φ- HIPAA医疗信息

数据发现:将三者结合为一个领域的力量

现在想象一下,如果您可以将数据集分类为概念,然后自动地从语义上识别所有列(使用适当的验证规则),并使用灵敏度标签标记列。它可能看起来像下面这样。

使用步骤

步骤1:创建一个启用语义检测的DQ作业

从配置文件选项页面,创建一个新的DQ作业,并从语义检测下拉菜单中选择ON。

步骤2:在Catalog中,选择并应用数据概念

导航到您的数据集目录,并选择要应用于的数据概念行动下拉菜单。
请参阅下面关于如何进行的部分管理数据概念以及如何创建和管理语义

步骤3:使用应用的数据概念重新运行DQ作业

请重新运行您的DQ作业,以便Collibra Data Quali亚愽视频ty可以1)配置您的数据,2)根据数据概念下的语义自动生成规则,3)突出显示任何中断记录。

成功!审查结果

在Profile页面上,请观察适用列上新标记的Semantics
在DQ作业页面上,请浏览基于Semantics新创建的规则以及任何相应的规则中断

创建和管理语义

创建,测试和管理您的语义在Collibra数据质量亚愽视频规则生成器向导。创建通用规则选项卡。下面是一个创建RegEx语义的例子

管理数据概念

只需设置一次数据概念,就可以在管理数据概念页面中将所有数据集统一为一个共同的理解,从而让整个组织受益。

从物理图式到语义

下面您可以看到组织元数据的好处。pde或物理数据元素按语义组织/标记。这允许在目录或搜索数据时进行次秒级搜索,以确定所有PII数据位于何处,或哪些系统具有“贷款数据”。
上面你可以看到黄色的数据概念,灰色的语义和橙色的敏感标签。使您能够在类中组织所有数据,搜索和发现类型,而不管它们位于什么系统中或PDE列名是什么。将技术类型转换为业务元数据。

业务单元汇总报告

现在,我们已经发现并标记了所有pde,并将其汇总为业务术语,我们可以将数据库表和文件等技术资产汇总为跨部门和非技术概念的业务报告。