1、Data WarehouseETLData MartsBI Analytics/GraphsData SourceHadoop Data LakeMPP/DWETLStreamingBI Analytics/GraphsDLMLData MartsData SourceData PreparationData SourceDLMLStreamingBI Analytics/GraphsData Catalog|Workload Manager|GovernanceODS-DWD-DMS-ADSData LakehousePC时代,DW1.02000s互联网时代,DW2.0 2010s移动互联网
2、,大数据+数据湖+DW3.02020s云原生数据湖时代,湖仓一体单机+小机集群+一体机,集中式高可靠分布式+通用X86服务器,分布式高扩展云原生,Lakehouse(7.1.9 SP1)HDFSRangerAtlasIcebergZookeeperAvroOozieHMSKafkaImpalaSparkStreams Message MgrReplication ManagerCloudera ManagerSchema RegistryOzoneKnoxKuduHiveSolrPhoenixParquetLivyHueSqoopHBaseZeppelinORCYARNKey Trustee
3、ServerKey HSMNavigator EncryptStreams Replication MgrCruise ControlKafka StreamsKafka ConnectTezObjectStorageQuery EnginesAny CSPObject StoreMetastoreUnified Table FormatCLOUDERA ICEBERG REST COMPATIBLE METASTOREHive MetastoreStarRocksHiveHiveStarRocksHiveCloudera lakehouse enginesSDX摄取流式处理和数据流数据工程数
4、据仓库运营数据库人工智能&机器学习CLOUDERA消费机器学习仪表板/分析应用自助BI/即席查询格式化报表原始数据数据处理运营数据存储集成数据层固定报表批场景中,将Cloudera作为数据源,导入StarRocks下游流式场景中,利用Cloudera的Flink/Kafka作为算力,将StarRocks作为存储使用时,将StarRocks作为流批一体查询的OLAP引擎采集着陆和发现区数据源1数据源2数据源NNiFi/CDF编排 其他选项:Spark ETL SqoopKafkaStarRocks报表/交互分析StarRocks实时报表/大屏监控Hive Stage TablesHive/Spa
5、rk ProcessingEDW受管表(Parquet on HDFS,Kudu)机器学习CML EDWDMFlink+SSBSDX摄取流式处理和数据流数据工程数据仓库运营数据库人工智能&机器学习CLOUDERA消费机器学习仪表板/分析应用自助BI/即席查询格式化报表原始数据数据处理运营数据存储集成数据层固定报表流和批场景中,都将Cloudera Iceberg作为统一数据源,并利用Cloudera的算力,如Flink/Kafka/Spark处理数据使用时,将StarRocks用作OLAP引擎,查询位于Cloudera中的Iceberg外表数据源1数据源2数据源NNiFi/CDF编排 其他选项
6、:Spark ETL SqoopKafka报表/交互分析Iceberg实时报表/大屏监控Hive Stage TablesHive/Spark ProcessingEDW受管表(Parquet on HDFS,Kudu)机器学习CML Flink+SSBStarRocks采集着陆和发现区EDWDMProduce metadata&lineageMessagingConsume metadata&lineageSync,get and enrich metadata&lineage元数据服务Metadata Mana