观远BI助你实现强大的跨库整合
为什么需要跨存储库集成功能?
观远BI支持轻松接入多种数据源,基本覆盖市面上所有主流数据库。不可否认,多样化的数据连接能力让观远BI能够快速连接现有数据源,构建统一的数据分析平台。但在项目实施过程中,经常会遇到以下问题:
我们的企业数据存储在不同甚至不同类型的数据库中。当用户查询数据的范围比较广且不限于一个数据库时,需要跨多个数据库进行关联查询分析。ETL 将数据提取到一个统一的库中,非常费力。或者重构现有的业务代码,分别从两个数据库中查询数据,然后在业务代码中进行join关联。数据库可能分布在不同的实例和不同的主机上,加入关联会变得很麻烦。
针对这个问题,观远BI提供了一个跨库联合数据源(观远BIUnionDB):系统内置的数据源,用于实现跨库查询需要处理不同接口统一访问数据的问题。例如,通过关联 Oracle 和 SQL Server 数据源,可以统一访问来自不同接口的数据,而无需进行数据抽取。
跨库集成功能
跨库联合数据源(观远BIUnionDB):系统内置数据源,用于实现跨库查询的需求。系统自动将新建的关系数据源信息添加到跨库联合数据源中,或者通过数据库关联接口手动添加需要的数据源进行跨库查询。
目前支持的跨数据库数据源类型包括:缓存库、Hadoop_Hive、Starlink、Vertica、CH、Greenplum、Infobright、Oracle、DB2 V9、MySQL、MS SQL Server、Spark SQL、Teradata_v12、Informix ,黑斑羚,PostgreSQL。
跨存储库集成的亮点
1. 无需登陆
观远BI 提供直接跨库查询,内置数据跨库查询引擎,关联在内存中,数据无需落地。省略中间提取环节,保证查询数据的实时性。
2. 快速部署,开箱即用
系统内置跨库引擎,无需额外安装部署。
3. 处理速度快,规模大
针对海量大数据跨库查询,内置跨库引擎,通过线性扩展和并行处理方案,满足企业成长需求。
4. 高性能应用
跨数据库数据源支持应用于数据集定义,通常广泛用于可视化数据集和自助数据集。我们常规的数据分析底层结构是基于数据源直接连接我们的数据连接进行数据分析和呈现。这种情况下,如果我们的数据量比较小,一般是没有问题的,但是一旦我们的数据达到一定程度之后,我们的报表性能就会出现很大的瓶颈,甚至可能导致我们的报表刷不出来时间长了,以至于我们的系统崩溃了。这时候我们就可以直接使用缓存库机制来保证系统具有更长的生命力和可扩展性。
数据提取到缓存库后,后续查询直接从缓存库中取数据,提高查询性能。例如,在体验中心的“体验场景五”分析某公司的员工数据时,员工表(300024条记录)和工资表(2844047条记录)是跨库关联的,数据在缓存前刷新用来。至少20秒;当数据被提取到缓存存储库时,切换年份刷新仅需2秒,甚至更快。