最佳实践

我们感动!为了改善客户体验,Collibra数据质量用户指南已转移到亚愽视频 亚愽视频Collibra文档中心 作为Collibra数据质量2亚愽视频022.11版本的一部分。为了确保平稳过渡, dq-docs.亚愽视频collibra.com 仍然可以访问,但DQ用户指南现在只在文档中心进行维护。

多租户名称

租户名称只能用小写字母。

理解owl活动以及每个键/日期列的含义

在实际场景中使用该工具

  • 拥有定义良好的用例
    • 确定要扫描的单个表(数据集)
    • 您希望Owl在这个数据集中找到什么
    • 了解哪些活动将捕获预期的结果
  • 针对有已知数据问题的内部数据集
  • 历史的比较:
    • 如果通过遗留方法(如内部规则)清理的数据发现中有预清理的数据,则运行这些数据集并将Owl的结果与内部发现进行比较。
  • 与数据所有者合作,了解发现或审查预期的发现

资源管理器

  • 在Scope (home)选项卡中使用日历小部件选择的日期应该与最后(Save/Run)选项卡上分配的日历小部件保持一致。
  • 如果您选择解锁cmd行并覆盖最后的参数,请不要重新锁定,否则更改将被覆盖。一般情况下,只有高级用户才应该覆盖引导设置。
  • 下推JDBC和并行JDBC不能同时使用。如果使用下推,则不要选择并行JDBC选项

文件

  • 文件路径不应包含空格或特殊字符。
  • 反向运行(重放)和高级特性最适合JDBC连接。如果文件和存储命名约定不一致地包含日期签名,则某些功能不可用。

连接池

如果您看到此消息,请更新owl-env.sh或k8部署的代理config映射中的代理配置。
获取JDBC连接失败;org.apache.tomcat.jdbc. Pool . poolexhaust - stedexception: [Pool -29-thread-2] Timeout: Pool empty。0秒内无法获取连接,没有可用连接[size:2;忙:1;空闲状态:0;lastwait: 200)。
调整这些配置以修改可用的连接池。
出口SPRING_DATASOURCE_POOL_MAX_WAIT = 500
出口SPRING_DATASOURCE_POOL_MAX_SIZE = 10
出口SPRING_DATASOURCE_POOL_INITIAL_SIZE = 5

Freeform Agent配置

在配置DQ Agent和使用对话框底部的Free Form Parameters时,需要用逗号分隔多个-conf键/值对。我将以论坛帖子的形式写这篇文章,但使用这种格式:“-conf some”。关键= x, some.other.key = y”

美丽的秘密

下面的Env Vars现在作为一个Secret而不是Configmap来管理
License_key livy_ssl_key_pass server_ssl_key_pass spring_agent_datasource_password spring_agent_datasource_username spring_datasource_password spring_datasource_username

DQ工作阶段

DQ工作失败是最常被问到的问题之一。这概述了DQ作业生命周期以及在哪里查找每个阶段的日志。每个DQ作业都经历三个生命周期阶段:

阶段1

Agent从Metastore获取作业,并将其转换为有效的Spark Submit请求。这包括用于Cloud和Kerberos的凭据获取和注入。如果一个作业从来没有完成STAGING,那么要做的第一件事是检查Agent日志(/log/ Agent .log或K8s kubectl logs -n .log)。

第二阶段

Agent通过Spark Submit将DQ检查传递给Spark,维护Spark Submit请求的句柄。此时,作业在Spark的托管下,但尚未运行(Spark Submit创建了自己的JVM来管理Spark作业向集群/运行时的提交)。如果作业失败,并且在Jobs页面上显示类似“Failed with reason NULL”的消息,则检查Stage 2日志(每个作业将有一个单独的日志)。这些可以在代理本身(/log/.log)上找到,也可以在作业条目的Jobs页面Action下拉菜单中找到。第三阶段:Spark Submit在目标Spark Runtime (Hadoop/K8s/Spark- master)中实例化Job。此时,DQ核心代码是活动的,DQ重新控制了作业。通常,如果作业到达此阶段,它将不再处于分段状态,您应该在Jobs Page上看到一条错误消息。通常,需要完整的Stage 3日志来解决在Core中发生的问题。

第三阶段

日志可以从作业条目的Actions下拉菜单中获取。如果日志提取失败,则需要直接从Spark Runtime (Hadoop Resource Manager, K8s API via Kubectl或供应商提供的UI, Spark Master UI或直接从Spark Master Host)中收集作业日志。