1-实时数仓架构特点

1.1-数仓分层明显少于离线数仓

一般实时数仓主要是公共层的模型层,缩短数据处理时间,保证数据及时性。

1.2-数据存储的多样化

离线数仓的数据一般存储于hdfs,但是对于实时数仓的数据,一般使用kafka存储ods贴源层,dwd明细数据,dim维度数据更多的存储在HBase中,也可能存储在redis中

1.3-技术难度远高于离线数仓

目前实时数仓技术栈主要是canal+kafka+flink+hbase+clickhouse,相对于写hivesql来说,难度提升了不少,而且实时数仓对数据的准确性及实时性要求比较高。

2-实时数仓应用场景

实时监控,实时推荐

3-实时数仓架构

3.1-lamdba架构

在这里插入图片描述

3.2-kappa架构

在这里插入图片描述
与 lamdba架构不同点在于,kappa架构全部移除离线部分,用实时生产替代

3.3-架构对比

在这里插入图片描述

Logo

Kafka开源项目指南提供详尽教程,助开发者掌握其架构、配置和使用,实现高效数据流管理和实时处理。它高性能、可扩展,适合日志收集和实时数据处理,通过持久化保障数据安全,是企业大数据生态系统的核心。

更多推荐