性能调优

调优指南
我们感动!为了改善客户体验,Collibra数据质量用户指南已转移到亚愽视频 亚愽视频Collibra文档中心 作为Collibra数据质量2亚愽视频022.11版本的一部分。为了确保平稳过渡, dq-docs.亚愽视频collibra.com 仍然可以访问,但DQ用户指南现在只在文档中心进行维护。
存储格式
全国矿工工会
全国矿工工会
字节的磁盘
全国矿工工会
执行人
遗嘱执行人的记忆
总内存
传输时间
处理时间
本地文件
1米
50
1克
1
3 g
3 g
0分钟
2分钟
HDFS文件
10米
50
5克
3.
8 g
24 g
0分钟
4分钟
蜂巢表
10米
50
5克
3.
8 g
24 g
0分钟
4分钟
JDBC表
50米
50
25克
8
10克
80克
3分钟
8分钟
JDBC表
10米
One hundred.
10克
3.
12克
36克
3分钟
6分钟
JDBC表
250米
9
10克
5
7 g
35克
14分钟
15分钟
JDBC表
250米
145
70克
17
12克
204克
28分钟
30分钟
使用RAM与executor的10/1比例通常是一个很好的经验法则,另一个更简单的选择是打开dynamic。分配和允许根据需要提供资源。亚博 在线

限制列

在大多数情况下,有大量业务未使用的列或不需要检查的列。你能做的最有效的事情之一是使用下面的cmd来限制cols。作为最佳实践,Owl强烈建议每个数据集使用少于80个列。
q“select colA, colB, colC, datCol, colD from table”
/ /对
q“select * from * from table”

使用文件时如何限制列

fqselect colA, colB, colC from dataset
//文件使用关键字数据集查询

JDBC vs本地数据

同位置数据(本地数据)

将数据和处理组合在一起总是一种很好的性能实践。这并不意味着你的技术组织选择在它的架构和设计中这样做,这就是为什么Owl都占了。如果数据位于正在进行处理的集群上,则使用-hive之类的选项用于非JDBC和本机文件访问。跳过JDBC调优,因为首先将数据移动到集群通常会减少50%的性能瓶颈。

JDBC

设置fetchsize1M rows -connectionprops fetchsize=1000 5M rows -connectionprops fetchsize=5000 10M rows -connectionprops fetchsize=10000
设置DriverMemory为驱动节点增加更多内存,因为它将负责数据的初始着陆
——driver-memory 7 g
添加并行JDBC

限制功能,关闭标志

- corff //只失去视觉效果,速度增加5%
-histoff //只失去视觉效果,速度增加4%
-hootonly //在减少日志记录的基础上加速1%
-readonly //删除owl webapp读写,增加1%
-datashapeoff //移除形状检测3%的速度增益

现实场景

仅1个数据集,每天就有900万行和46列。数据存储在Greenplum中,我们希望在运行Owl的集群平台上处理数据。第一次运行的结果是12分钟。虽然可以接受,但并不理想,以下是你应该做的。
  1. 1
    为更快的网络添加并行JDBC
  2. 2
    将列限制为在下游处理中使用的18列
  3. 3.
    关闭不需要的功能。
  4. 4
    找出作业是内存限制还是CPU限制
通过设置下面的配置,相同的作业在6分钟内运行。
#并行函数
-columnname run_date -numpartitions .使用实例4
下界“2019-02-23”就是
-upperbound“2019-02-24”就是
#驱动优化
-connectionpropsfetchsize6000
#分析函数
-corroff
-histoff
#硬件
-executormemory 4 g
-numexecutors3.

完整的猫头鹰检查

。/ owlcheck
-u u -p pass
- c jdbc: postgresql: / /美元的主机/ postgres# JDBC url
-ds aumdt -rd201905-05
q"select * from aum_dt"
司机org.postgresql.Driver#司机
自由/home/owl/drivers/postgres#驱动jar
-connectionpropsfetchsize6000#驱动器性能设置
-deploymode客户
-executormemory 2G -numexecutors2-drivermemory 3 g#硬件尺寸
- h cdh-edge.us-east1-b.c.owl-hadoop-cdh.internal: 2181#猫头鹰转移
- corff -histoff -statsoff#猫头鹰功能
-loglevel信息#日志级别
-columnname updt_ts -numpartitions .使用实例12#并行JDBC
下界1557623033193-upperbound1557623051585
“数据集”:“aumdt”,
“runId”:“2019-05-05”,
“分数”:100年,
“behaviorScore”:0,
“行”:9000000,
“passFail”:0,
“峰值”:0,
“avgRows”:0,
46岁的“关口”:
“运行时”:“00:05:23”,