关于数据分析
数据概要将创建数据源的摘要注册与数据目录并确定数据源中列的数据类型。摘要主要包含统计数据和图形,让用户了解注册的数据是关于什么的。
您可以通过以下方式创建分析数据:
分析过程
您可以通过边缘或通过Jobserver。
通过Jobserver进行分析
当您通过Jobserver注册数据源时,数据目录触发摄入过程。默认情况下,完整的数据集被传输到Jobserver,然后Jobserver根据数据源创建样例数据。Jobserver然后分析示例数据并将结果发送到数据目录.
你可以启用的匿名化数据选项,用于散列或删除可以考虑的分析信息敏感的.
分析通过边缘
当您通过注册数据源时边缘你已经创建了一个分析能力,可以对元数据进行分析和分类数据库资产页面已注册数据源的。
通过Jobserver或通过边缘
下表显示了通过Jobserver和via进行分析的区别边缘.
过程的一部分 |
通过Jobserver进行分析 |
分析通过边缘 |
---|---|---|
数据大小 | 用于计算概要统计信息的数据的大小是有限制的。默认情况下,这是10gb。 | 没有数据大小限制。的边缘站点在读取数据时计算剖析统计信息。 |
连接 | Jobserver需要HTTP代理来支持反向连接。 | 亚愽视频连接到边缘网站。的边缘站点安装在客户的环境中,靠近数据源。的边缘站点通信到亚愽视频Collibra数据智能云和其他使用HTTPS连接的第三方系统。 |
注册数据源 | 当通过Jobserver注册数据源,选项可用于配置数据和创建示例数据。 | 你只能在你死后配置数据注册一个数据源而且同步一个或多个模式.方法启动分析过程配置页签。数据库资产页面. |
删除数据概要信息 | 若要删除模式的数据概要信息,请在不存储数据概要的情况下刷新模式。看到刷新已注册数据源的模式. | 一旦数据概要信息可用,您只能通过删除资产来删除它。 |
分析示例
要创建数据概要文件,数据目录使用有代表性的数据样本。
请注意中可用的示例数据与此概要分析示例数据不相同样本数据.
通过Jobserver创建一个分析示例
如果通过Jobserver注册数据源,则在注册数据源时创建剖析示例。
- 如果使用Jobserver而不使用下推采样,则完整的数据集将传输到Jobserver,然后由Jobserver根据您的数据源创建分析示例。样本大小由表概要数据大小设置在亚愽视频Collibra控制台或Collibra设置的Services Configuration部分。亚愽视频缺省值为10gb。
- 如果使用Jobserver下推抽样(也称为部分扫描),数据源本身创建分析示例并将其发送到数据目录.
数据源从随机选择的数据创建样例,并将其传输到Jobserver。如果到达缓存存储,进程将停止。由于数据源已经随机创建了样本,省略的数据可以忽略,而不降低样本的代表性。警告下推抽样仅适用于某些数据源。要验证数据源是否允许下推抽样,请参见亚愽视频collibra提供的JDBC驱动程序.
创建一个分析样例边缘
边缘配置文件上的数据并对其进行分类边缘站点本身,只发送分析结果和分类建议到亚愽视频Collibra数据智能云.
- 如果通过Edge使用完全扫描,则扫描表中的所有行进行分析,没有限制。
- 如果使用部分扫描,数据源本身将从随机选择的数据创建概要示例,并将其发送到数据目录.
警告部分扫描仅适用于某些数据源。要验证数据源是否允许部分扫描,请参见亚愽视频collibra提供的JDBC驱动程序.
有关更多信息,请参见通过Edge配置分析和分类选项.