支持连接

受支持的数据源连接类型的列表。
我们感动!为了改善客户体验,Collibra数据质量用户指南已转移到亚愽视频 亚愽视频Collibra文档中心 作为Collibra数据质量2亚愽视频022.11版本的一部分。为了确保平稳过渡, dq-docs.亚愽视频collibra.com 仍然可以访问,但DQ用户指南现在只在文档中心进行维护。
请访问我们旧的支持连接页面 参见2022.03

生产

以下是经过生产使用认证的驱动程序列表。

连接-目前支持

连接
认证
测试
打包
可选的包装
后进先出存储的
估计工作
Filtergram
分析数据
时间表
引发剂
纱代理
平行JDBC
会话状态
Kerberos密码
Kerberos密码管理器
Kerberos keytab
Kerberos TGT
独立(non-Livy)
雅典娜
BigQuery
砖JDBC
DB2
Dremio
蜂巢
黑斑羚
该软件
MYSQL
甲骨文
Postgres
转眼间
红移
雪花
赛贝斯公司
Teradata

远程连接-目前支持

连接
认证
测试
打包
可选的包装
后进先出存储的
估计工作
Filtergram
分析数据
引发剂
纱代理
Azure数据湖(Gen2)
谷歌云存储
HDFS
S3

在评估

以下是正在评估的驱动程序列表(尚未获得生产使用认证)。这些连接目前不符合升级支持服务的条件。

连接-技术预览

连接
认证
测试
打包
可选的包装
后进先出存储的
估计工作
Filtergram
分析数据
时间表
引发剂
纱代理
平行JDBC
会话状态
Kerberos状态
Kerberos密码管理器
Kerberos keytab
Kerberos TGT
独立(non-Livy)
卡珊德拉
MongoDB
SAP Hana
Solr

流媒体-技术预览

连接
认证
测试
打包
可选的包装
后进先出存储的
估计工作
Filtergram
分析数据
时间表
引发剂
纱代理
平行JDBC
会话状态
Kerberos密码
Kerberos密码管理器
Kerberos TGT
CRDB metastore
独立(non-Livy)
卡夫卡

文件

文件类型
支持
CSV(和所有分隔符)
拼花
AVRO
JSON
δ

限制

身份验证
  • Spark独立部署或本地部署还不支持需要Kerberos TGT的DQ作业
    • 建议通过Yarn或K8s提交作业

文件限制

文件大小
  • 文件资源管理器支持超过250列的文件,除非启用了Livy。
  • 文件资源管理器不支持大于5gb的文件,除非启用了Livy。
  • 较小的文件大小将允许跳过扫描和更有效的处理
  • 像重播、调度和历史回溯这样的高级功能需要在文件路径的文件夹中进行日期签名
S3
  • 请确保S3连接名称中没有空格
  • 请记得在建立连接时选择“保存凭据”复选框
  • 请指出桶,而不是子文件夹
本地文件
  • 本地文件只能使用NO_AGENT default运行
  • 这是为了快速测试、较小的文件和演示目的。
  • 本地文件扫描并不适合大规模生产使用。
李维

Spark引擎支持

  • MapR是EOL, MapR spark引擎不支持运行CDQ作业。

请参考此 页面 如欲了解更多有关 砖的支持
唯一支持的Databricks spark提交选项是使用 笔记本 来启动作业(Scala和Pyspark选项)。这是为管道开发人员和熟悉Databricks和笔记本电脑的用户设计的。这种形式非常适合将数据质量整合到现有Spark ETL数据流中。业务用户仍然可以使用这些结果。该配置不适合业务用户实现。Databricks用户使用Databricks集群或JDBC连接运行CDQ作业有三种方式。1.笔记本用户可以直接在Databricks集群上打开笔记本,上传干熄q jar文件并运行干熄q作业。完整的步骤将在下一页解释。CDQ在生产中支持此流程。
2.Spark-Submit
有两种方法可以在Databricks的集群上运行spark submit作业。第一种方法是使用Databricks UI运行CDQ spark submit作业,第二种方法是调用Databricks rest API。我们已经在不同的DataBricks集群版本上测试了这两种方法(见下表)。下面是演示这些路径的完整文档。 https://dq-docs.亚愽视频collibra.com/apis-1/notebook/cdq-+-databricks/dq-databricks-submit
请注意,这些只是演示如何实现DQ spark提交到Databricks集群的示例。这些路径是生产和DQ团队的支持支持这些流程的任何错误覆盖或专业服务或客户问题。\
3.JDBC
CDQ用户可以在CDQ UI中创建JDBC连接,并连接到他们的Databricks数据库。计划于2022.05发布。
Delta Lake和JDBC连接已经在Spark 3.01 CDQ包、Databricks 7.3 LTS和SparkJDBC41.jar上进行了验证。这是可用的预览。目前还没有其他组合得到认证。
不支持使用Databricks Spark master url提交Spark。
对Databricks的生产支持。