最佳实践

                      
                           我们感动!为了改善客户体验，Collibra数据质量用户指南已转移到亚愽视频
                           
                           亚愽视频Collibra文档中心
                           
                           作为Collibra数据质量2亚愽视频022.11版本的一部分。为了确保平稳过渡，
                           
                           dq-docs.亚愽视频collibra.com
                           
                           仍然可以访问，但DQ用户指南现在只在文档中心进行维护。
                          
                       多租户名称
                       
                      租户名称只能用小写字母。
                     
                       理解owl活动以及每个键/日期列的含义
                       
                             从概要文件开始，扩展到规则，然后扩展到其他高级功能。
                            
                                       https://dq-docs.亚愽视频collibra.com/dq-visuals/profile
                                       
                             猫头鹰团队Zoom/现场支持培训
                            
                             使用示例数据运行
                            
                             在样本数据上引入异常，并运行owlcheck来查看异常。
                            
                       在实际场景中使用该工具
                       
                             拥有定义良好的用例
                            
                                       确定要扫描的单个表(数据集)
                                      
                                       您希望Owl在这个数据集中找到什么
                                      
                                       了解哪些活动将捕获预期的结果
                                      
                             针对有已知数据问题的内部数据集
                            
                             历史的比较:
                            
                                       如果通过遗留方法(如内部规则)清理的数据发现中有预清理的数据，则运行这些数据集并将Owl的结果与内部发现进行比较。
                                      
                             与数据所有者合作，了解发现或审查预期的发现
                            
                       资源管理器
                       
                             在Scope (home)选项卡中使用日历小部件选择的日期应该与最后(Save/Run)选项卡上分配的日历小部件保持一致。
                            
                             如果您选择解锁cmd行并覆盖最后的参数，请不要重新锁定，否则更改将被覆盖。一般情况下，只有高级用户才应该覆盖引导设置。
                            
                             下推JDBC和并行JDBC不能同时使用。如果使用下推，则不要选择并行JDBC选项
                            
                       文件
                       
                             文件路径不应包含空格或特殊字符。
                            
                             反向运行(重放)和高级特性最适合JDBC连接。如果文件和存储命名约定不一致地包含日期签名，则某些功能不可用。
                            
                       连接池
                       
                      如果您看到此消息，请更新owl-env.sh或k8部署的代理config映射中的代理配置。
                     
                          获取JDBC连接失败;org.apache.tomcat.jdbc. Pool . poolexhaust - stedexception: [Pool -29-thread-2] Timeout: Pool empty。0秒内无法获取连接，没有可用连接[size:2;忙:1;空闲状态:0;lastwait: 200)。
                         
                      调整这些配置以修改可用的连接池。
                     
                          出口SPRING_DATASOURCE_POOL_MAX_WAIT = 500
                         
                          出口SPRING_DATASOURCE_POOL_MAX_SIZE = 10
                         
                          出口SPRING_DATASOURCE_POOL_INITIAL_SIZE = 5
                         
                       Freeform Agent配置
                       
                      在配置DQ Agent和使用对话框底部的Free Form Parameters时，需要用逗号分隔多个-conf键/值对。我将以论坛帖子的形式写这篇文章，但使用这种格式:“-conf some”。关键= x, some.other.key = y”
                     
                       美丽的秘密
                       
                      下面的Env Vars现在作为一个Secret而不是Configmap来管理
                     
                      License_key livy_ssl_key_pass server_ssl_key_pass spring_agent_datasource_password spring_agent_datasource_username spring_datasource_password spring_datasource_username
                     
                       DQ工作阶段
                       
                      DQ工作失败是最常被问到的问题之一。这概述了DQ作业生命周期以及在哪里查找每个阶段的日志。每个DQ作业都经历三个生命周期阶段:
                     
                       阶段1
                       
                      Agent从Metastore获取作业，并将其转换为有效的Spark Submit请求。这包括用于Cloud和Kerberos的凭据获取和注入。如果一个作业从来没有完成STAGING，那么要做的第一件事是检查Agent日志(/log/ Agent .log或K8s kubectl logs -n .log)。
                     
                       第二阶段
                       
                      Agent通过Spark Submit将DQ检查传递给Spark，维护Spark Submit请求的句柄。此时，作业在Spark的托管下，但尚未运行(Spark Submit创建了自己的JVM来管理Spark作业向集群/运行时的提交)。如果作业失败，并且在Jobs页面上显示类似“Failed with reason NULL”的消息，则检查Stage 2日志(每个作业将有一个单独的日志)。这些可以在代理本身(/log/.log)上找到，也可以在作业条目的Jobs页面Action下拉菜单中找到。第三阶段:Spark Submit在目标Spark Runtime (Hadoop/K8s/Spark- master)中实例化Job。此时，DQ核心代码是活动的，DQ重新控制了作业。通常，如果作业到达此阶段，它将不再处于分段状态，您应该在Jobs Page上看到一条错误消息。通常，需要完整的Stage 3日志来解决在Core中发生的问题。
                     
                       第三阶段
                       
                      日志可以从作业条目的Actions下拉菜单中获取。如果日志提取失败，则需要直接从Spark Runtime (Hadoop Resource Manager, K8s API via Kubectl或供应商提供的UI, Spark Master UI或直接从Spark Master Host)中收集作业日志。
最后修改2月前