性能调优

调优指南
                      
                           我们感动!为了改善客户体验，Collibra数据质量用户指南已转移到亚愽视频
                           
                           亚愽视频Collibra文档中心
                           
                           作为Collibra数据质量2亚愽视频022.11版本的一部分。为了确保平稳过渡，
                           
                           dq-docs.亚愽视频collibra.com
                           
                           仍然可以访问，但DQ用户指南现在只在文档中心进行维护。
                          
                                   存储格式
                                  
                                   全国矿工工会
                                  
                                   行
                                  
                                   全国矿工工会
                                  
                                   列
                                  
                                   字节的磁盘
                                  
                                   全国矿工工会
                                  
                                   执行人
                                  
                                   遗嘱执行人的记忆
                                  
                                   总内存
                                  
                                   传输时间
                                  
                                   处理时间
                                  
                                   本地文件
                                  
                                   1米
                                  
                                   50
                                  
                                   1克
                                  
                                   1
                                  
                                   3 g
                                  
                                   3 g
                                  
                                   0分钟
                                  
                                   2分钟
                                  
                                   HDFS文件
                                  
                                   10米
                                  
                                   50
                                  
                                   5克
                                  
                                   3.
                                  
                                   8 g
                                  
                                   24 g
                                  
                                   0分钟
                                  
                                   4分钟
                                  
                                   蜂巢表
                                  
                                   10米
                                  
                                   50
                                  
                                   5克
                                  
                                   3.
                                  
                                   8 g
                                  
                                   24 g
                                  
                                   0分钟
                                  
                                   4分钟
                                  
                                   JDBC表
                                  
                                   50米
                                  
                                   50
                                  
                                   25克
                                  
                                   8
                                  
                                   10克
                                  
                                   80克
                                  
                                   3分钟
                                  
                                   8分钟
                                  
                                   JDBC表
                                  
                                   10米
                                  
                                   One hundred.
                                  
                                   10克
                                  
                                   3.
                                  
                                   12克
                                  
                                   36克
                                  
                                   3分钟
                                  
                                   6分钟
                                  
                                   JDBC表
                                  
                                   250米
                                  
                                   9
                                  
                                   10克
                                  
                                   5
                                  
                                   7 g
                                  
                                   35克
                                  
                                   14分钟
                                  
                                   15分钟
                                  
                                   JDBC表
                                  
                                   250米
                                  
                                   145
                                  
                                   70克
                                  
                                   17
                                  
                                   12克
                                  
                                   204克
                                  
                                   28分钟
                                  
                                   30分钟
                                  
                      使用RAM与executor的10/1比例通常是一个很好的经验法则，另一个更简单的选择是打开dynamic。分配和允许根据需要提供资源。亚博 在线
                     
                       限制列
                       
                      在大多数情况下，有大量业务未使用的列或不需要检查的列。你能做的最有效的事情之一是使用下面的cmd来限制cols。作为最佳实践，Owl强烈建议每个数据集使用少于80个列。
                     
                          q“select colA, colB, colC, datCol, colD from table”
                         
                          / /对
                         
                          q“select * from * from table”
                         
                       使用文件时如何限制列
                       
                          fqselect colA, colB, colC from dataset
                         
                          //文件使用关键字数据集查询
                         
                       JDBC vs本地数据
                       
                       同位置数据(本地数据)
                       
                      将数据和处理组合在一起总是一种很好的性能实践。这并不意味着你的技术组织选择在它的架构和设计中这样做，这就是为什么Owl都占了。如果数据位于正在进行处理的集群上，则使用-hive之类的选项用于非JDBC和本机文件访问。跳过JDBC调优，因为首先将数据移动到集群通常会减少50%的性能瓶颈。
                     
                       JDBC
                       
                      设置fetchsize1M rows -connectionprops fetchsize=1000 5M rows -connectionprops fetchsize=5000 10M rows -connectionprops fetchsize=10000
                     
                      设置DriverMemory为驱动节点增加更多内存，因为它将负责数据的初始着陆
                     
                          ——driver-memory 7 g
                         
                      添加并行JDBC
                     
                       限制功能，关闭标志
                       
                          - corff //只失去视觉效果，速度增加5%
                         
                          -histoff //只失去视觉效果，速度增加4%
                         
                          -hootonly //在减少日志记录的基础上加速1%
                         
                          -readonly //删除owl webapp读写，增加1%
                         
                          -datashapeoff //移除形状检测3%的速度增益
                         
                       现实场景
                       
                      仅1个数据集，每天就有900万行和46列。数据存储在Greenplum中，我们希望在运行Owl的集群平台上处理数据。第一次运行的结果是12分钟。虽然可以接受，但并不理想，以下是你应该做的。
                     
                     1．
                             为更快的网络添加并行JDBC
                            
2．
                             将列限制为在下游处理中使用的18列
                            
3.．
                             关闭不需要的功能。
                            
4．
                             找出作业是内存限制还是CPU限制
                            
                      通过设置下面的配置，相同的作业在6分钟内运行。
                     
                          #并行函数
                         
                          -columnname run_date -numpartitions .使用实例4＼
                         
                          下界“2019-02-23”就是＼
                         
                          -upperbound“2019-02-24”就是
                         
                          #驱动优化
                         
                          -connectionpropsfetchsize＝6000
                         
                          #分析函数
                         
                          -corroff＼
                         
                          -histoff
                         
                          #硬件
                         
                          -executormemory 4 g
                         
                          -numexecutors3.
                         
                       完整的猫头鹰检查
                       
                          。/ owlcheck＼
                         
                          -u u -p pass＼
                         
                          - c jdbc: postgresql: / /美元的主机/ postgres＼# JDBC url
                         
                          -ds aumdt -rd201905-05＼
                         
                          q"select * from aum_dt"＼
                         
                          司机org.postgresql.Driver＼#司机
                         
                          自由/home/owl/drivers/postgres＼#驱动jar
                         
                          -connectionpropsfetchsize＝6000＼#驱动器性能设置
                         
                          主纱-deploymode客户＼
                         
                          -executormemory 2G -numexecutors2-drivermemory 3 g＼#硬件尺寸
                         
                          - h cdh-edge.us-east1-b.c.owl-hadoop-cdh.internal: 2181＼#猫头鹰转移
                         
                          - corff -histoff -statsoff＼#猫头鹰功能
                         
                          -loglevel信息＼#日志级别
                         
                          -columnname updt_ts -numpartitions .使用实例12＼#并行JDBC
                         
                          下界1557623033193-upperbound1557623051585
                         
                          ｛
                         
                          “数据集”:“aumdt”,
                         
                          “runId”:“2019-05-05”,
                         
                          “分数”:100年,
                         
                          “behaviorScore”:0,
                         
                          “行”:9000000,
                         
                          “passFail”:0,
                         
                          “峰值”:0,
                         
                          “avgRows”:0,
                         
                          46岁的“关口”:
                         
                          “运行时”:“00:05:23”,
                         
                          ｝
基准,以前的
性能测试
下一个
性能考虑
最后修改2月前
存储格式	全国矿工工会行	全国矿工工会列	字节的磁盘	全国矿工工会执行人	遗嘱执行人的记忆	总内存	传输时间	处理时间
本地文件	1米	50	1克	1	3 g	3 g	0分钟	2分钟
HDFS文件	10米	50	5克	3.	8 g	24 g	0分钟	4分钟
蜂巢表	10米	50	5克	3.	8 g	24 g	0分钟	4分钟
JDBC表	50米	50	25克	8	10克	80克	3分钟	8分钟
JDBC表	10米	One hundred.	10克	3.	12克	36克	3分钟	6分钟
JDBC表	250米	9	10克	5	7 g	35克	14分钟	15分钟
JDBC表	250米	145	70克	17	12克	204克	28分钟	30分钟