性能调优
调优指南
我们感动!为了改善客户体验,Collibra数据质量用户指南已转移到亚愽视频
亚愽视频Collibra文档中心
作为Collibra数据质量2亚愽视频022.11版本的一部分。为了确保平稳过渡,
dq-docs.亚愽视频collibra.com
仍然可以访问,但DQ用户指南现在只在文档中心进行维护。
存储格式
|
全国矿工工会
行
|
全国矿工工会
列
|
字节的磁盘
|
全国矿工工会
执行人
|
遗嘱执行人的记忆
|
总内存
|
传输时间
|
处理时间
|
本地文件
|
1米
|
50
|
1克
|
1
|
3 g
|
3 g
|
0分钟
|
2分钟
|
HDFS文件
|
10米
|
50
|
5克
|
3.
|
8 g
|
24 g
|
0分钟
|
4分钟
|
蜂巢表
|
10米
|
50
|
5克
|
3.
|
8 g
|
24 g
|
0分钟
|
4分钟
|
JDBC表
|
50米
|
50
|
25克
|
8
|
10克
|
80克
|
3分钟
|
8分钟
|
JDBC表
|
10米
|
One hundred.
|
10克
|
3.
|
12克
|
36克
|
3分钟
|
6分钟
|
JDBC表
|
250米
|
9
|
10克
|
5
|
7 g
|
35克
|
14分钟
|
15分钟
|
JDBC表
|
250米
|
145
|
70克
|
17
|
12克
|
204克
|
28分钟
|
30分钟
|
使用RAM与executor的10/1比例通常是一个很好的经验法则,另一个更简单的选择是打开dynamic。分配和允许根据需要提供资源。亚博 在线
在大多数情况下,有大量业务未使用的列或不需要检查的列。你能做的最有效的事情之一是使用下面的cmd来限制cols。作为最佳实践,Owl强烈建议每个数据集使用少于80个列。
q“select colA, colB, colC, datCol, colD from table”
/ /对
q“select * from * from table”
fqselect colA, colB, colC from dataset
//文件使用关键字数据集查询
将数据和处理组合在一起总是一种很好的性能实践。这并不意味着你的技术组织选择在它的架构和设计中这样做,这就是为什么Owl都占了。如果数据位于正在进行处理的集群上,则使用-hive之类的选项用于非JDBC和本机文件访问。跳过JDBC调优,因为首先将数据移动到集群通常会减少50%的性能瓶颈。
设置fetchsize1M rows -connectionprops fetchsize=1000 5M rows -connectionprops fetchsize=5000 10M rows -connectionprops fetchsize=10000
设置DriverMemory为驱动节点增加更多内存,因为它将负责数据的初始着陆
——driver-memory 7 g
添加并行JDBC
- corff //只失去视觉效果,速度增加5%
-histoff //只失去视觉效果,速度增加4%
-hootonly //在减少日志记录的基础上加速1%
-readonly //删除owl webapp读写,增加1%
-datashapeoff //移除形状检测3%的速度增益
仅1个数据集,每天就有900万行和46列。数据存储在Greenplum中,我们希望在运行Owl的集群平台上处理数据。第一次运行的结果是12分钟。虽然可以接受,但并不理想,以下是你应该做的。
-
1.为更快的网络添加并行JDBC
-
2.将列限制为在下游处理中使用的18列
-
3..关闭不需要的功能。
-
4.找出作业是内存限制还是CPU限制
通过设置下面的配置,相同的作业在6分钟内运行。
#并行函数
-columnname run_date -numpartitions .使用实例4\
下界“2019-02-23”就是\
-upperbound“2019-02-24”就是
#驱动优化
-connectionpropsfetchsize=6000
#分析函数
-corroff\
-histoff
#硬件
-executormemory 4 g
-numexecutors3.
。/ owlcheck\
-u u -p pass\
- c jdbc: postgresql: / /美元的主机/ postgres\# JDBC url
-ds aumdt -rd201905-05\
q"select * from aum_dt"\
司机org.postgresql.Driver\#司机
自由/home/owl/drivers/postgres\#驱动jar
-connectionpropsfetchsize=6000\#驱动器性能设置
主纱-deploymode客户\
-executormemory 2G -numexecutors2-drivermemory 3 g\#硬件尺寸
- h cdh-edge.us-east1-b.c.owl-hadoop-cdh.internal: 2181\#猫头鹰转移
- corff -histoff -statsoff\#猫头鹰功能
-loglevel信息\#日志级别
-columnname updt_ts -numpartitions .使用实例12\#并行JDBC
下界1557623033193-upperbound1557623051585
{
“数据集”:“aumdt”,
“runId”:“2019-05-05”,
“分数”:100年,
“behaviorScore”:0,
“行”:9000000,
“passFail”:0,
“峰值”:0,
“avgRows”:0,
46岁的“关口”:
“运行时”:“00:05:23”,
}
最后修改2月前