1. 视图数据集概述
视图数据集,旧称动态数据集,是指观远数据提供的基于SparkSQL的可参数化执行的动态数据集。可将非直连数据集进行动态关联与计算,提供更灵活的数据分析方式。是一种通过Spark SQL,解决即席分析场景下的复杂分析问题的查询计算功能。
2. 视图数据集优势
通过视图数据集,用户可以将1个或多个非直连数据集(实时数据集除外),通过SparkSQL对数据集进行重新整合,创建新的数据集。借助SparkSQL丰富的数据处理函数,可以帮助用户完成复杂的关联查询、数据预处理等。此外,还可以在SparkSQL查询语句添加动态参数,完成动态计算需求。
3. 视图数据集应用场景
3.1 连锁零售企业的PSD计算
PSD计算时,分子销售额是在日期、门店、SKU维度上的,统计是销售金额表上聚合计算得到的;而分母稼动天数则是在日期、门店维度上的,统计时需要在门店稼动表上进行聚合计算,它在商品(SKU)维度是不需要累加的。如果选择任何在原表上直接关联的方式,要么数据量急剧膨胀,要么会出现聚合出来的结果不准确的情况。只有将两张表的聚合结果再关联后计算PSD,才是最简单最准确的方式。观远数据的视图数据集,支持多数据集自动关联。通过自定义SQL,将参数注入到SQL里面,在两张原始表上做层级聚合,并将结果集关联后计算PSD值。
3.2 其他场景
计算企业相关经营数据的百分比的同环比
分析动态时间范围内消费者的消费频次分布问题
4. 视图数据集使用步骤
4.1 新建视图数据集
进入数据中心的数据集界面,点击右上角的“新建数据集”,选择“视图数据集”。
4.2 选择数据表
点击添加数据集后,选择1个数据表,您可以重复此操作以选择2个数据表。
4.3 输入动态查询SQL
选择“数据集字段”与“动态参数”,然后完成“动态查询SQL”。
4.4 指定数据集的名称以及保存位置
最后为数据集指定一个方便辨识的名字,以及指定保存位置。点击“确认新建”后,数据集创建成功。在对应的文件夹目录下即可找到该数据集。
4.5 设置预览超时上线
在“管理员设置-运维管理-参数配置”中,支持设置视图数据集预览超时上限,默认60s。
设置后,对历史已经创建的视图数据集不产生影响。