支持连接
受支持的数据源连接类型的列表。
我们感动!为了改善客户体验,Collibra数据质量用户指南已转移到亚愽视频
亚愽视频Collibra文档中心
作为Collibra数据质量2亚愽视频022.11版本的一部分。为了确保平稳过渡,
dq-docs.亚愽视频collibra.com
仍然可以访问,但DQ用户指南现在只在文档中心进行维护。
以下是经过生产使用认证的驱动程序列表。
连接
|
认证
|
测试
|
打包
|
可选的包装
|
后进先出存储的
|
估计工作
|
Filtergram
|
分析数据
|
时间表
|
引发剂
|
纱代理
|
平行JDBC
|
会话状态
|
Kerberos密码
|
Kerberos密码管理器
|
Kerberos keytab
|
Kerberos TGT
|
独立(non-Livy)
|
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
雅典娜
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
BigQuery
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
砖JDBC
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
DB2
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Dremio
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
蜂巢
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
黑斑羚
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
该软件
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
MYSQL
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
甲骨文
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Postgres
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
转眼间
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
红移
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
雪花
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
赛贝斯公司
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Teradata
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
连接
|
认证
|
测试
|
打包
|
可选的包装
|
后进先出存储的
|
估计工作
|
Filtergram
|
分析数据
|
引发剂
|
纱代理
|
---|---|---|---|---|---|---|---|---|---|---|
Azure数据湖(Gen2)
|
|
|
|
|
|
|
|
|
|
|
谷歌云存储
|
|
|
|
|
|
|
|
|
|
|
HDFS
|
|
|
|
|
|
|
|
|
|
|
S3
|
|
|
|
|
|
|
|
|
|
|
以下是正在评估的驱动程序列表(尚未获得生产使用认证)。这些连接目前不符合升级支持服务的条件。
连接
|
认证
|
测试
|
打包
|
可选的包装
|
后进先出存储的
|
估计工作
|
Filtergram
|
分析数据
|
时间表
|
引发剂
|
纱代理
|
平行JDBC
|
会话状态
|
Kerberos状态
|
Kerberos密码管理器
|
Kerberos keytab
|
Kerberos TGT
|
独立(non-Livy)
|
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
卡珊德拉
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
MongoDB
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
SAP Hana
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Solr
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
连接
|
认证
|
测试
|
打包
|
可选的包装
|
后进先出存储的
|
估计工作
|
Filtergram
|
分析数据
|
时间表
|
引发剂
|
纱代理
|
平行JDBC
|
会话状态
|
Kerberos密码
|
Kerberos密码管理器
|
Kerberos TGT
|
CRDB metastore
|
独立(non-Livy)
|
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
卡夫卡
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
文件类型
|
支持
|
---|---|
CSV(和所有分隔符)
|
|
拼花
|
|
AVRO
|
|
JSON
|
|
δ
|
|
身份验证
-
Spark独立部署或本地部署还不支持需要Kerberos TGT的DQ作业
-
建议通过Yarn或K8s提交作业
-
文件大小
-
文件资源管理器支持超过250列的文件,除非启用了Livy。
-
文件资源管理器不支持大于5gb的文件,除非启用了Livy。
-
较小的文件大小将允许跳过扫描和更有效的处理
-
像重播、调度和历史回溯这样的高级功能需要在文件路径的文件夹中进行日期签名
S3
-
请确保S3连接名称中没有空格
-
请记得在建立连接时选择“保存凭据”复选框
-
请指出根桶,而不是子文件夹
本地文件
-
本地文件只能使用NO_AGENT default运行
-
这是为了快速测试、较小的文件和演示目的。
-
本地文件扫描并不适合大规模生产使用。
李维
-
MapR是EOL, MapR spark引擎不支持运行CDQ作业。
唯一支持的Databricks spark提交选项是使用
笔记本
来启动作业(Scala和Pyspark选项)。这是为管道开发人员和熟悉Databricks和笔记本电脑的用户设计的。这种形式非常适合将数据质量整合到现有Spark ETL数据流中。业务用户仍然可以使用这些结果。该配置不适合业务用户实现。Databricks用户使用Databricks集群或JDBC连接运行CDQ作业有三种方式。1.笔记本用户可以直接在Databricks集群上打开笔记本,上传干熄q jar文件并运行干熄q作业。完整的步骤将在下一页解释。CDQ在生产中支持此流程。
2.Spark-Submit
有两种方法可以在Databricks的集群上运行spark submit作业。第一种方法是使用Databricks UI运行CDQ spark submit作业,第二种方法是调用Databricks rest API。我们已经在不同的DataBricks集群版本上测试了这两种方法(见下表)。下面是演示这些路径的完整文档。
https://dq-docs.亚愽视频collibra.com/apis-1/notebook/cdq-+-databricks/dq-databricks-submit
\
请注意,这些只是演示如何实现DQ spark提交到Databricks集群的示例。这些路径是不生产和DQ团队的支持不支持这些流程的任何错误覆盖或专业服务或客户问题。\
3.JDBC
CDQ用户可以在CDQ UI中创建JDBC连接,并连接到他们的Databricks数据库。计划于2022.05发布。
Delta Lake和JDBC连接已经在Spark 3.01 CDQ包、Databricks 7.3 LTS和SparkJDBC41.jar上进行了验证。这是可用的预览。目前还没有其他组合得到认证。
不支持使用Databricks Spark master url提交Spark。
对Databricks的生产支持。
最后修改1月前