当前位置:首页 > 报告详情

4 Cloudera-基于StarRocks和Cloudera搭建湖仓一体平台.pdf

上传人: 哆哆 编号:186211 2024-11-01 31页 3.68MB

1、Data WarehouseETLData MartsBI Analytics/GraphsData SourceHadoop Data LakeMPP/DWETLStreamingBI Analytics/GraphsDLMLData MartsData SourceData PreparationData SourceDLMLStreamingBI Analytics/GraphsData Catalog|Workload Manager|GovernanceODS-DWD-DMS-ADSData LakehousePC时代,DW1.02000s互联网时代,DW2.0 2010s移动互联网

2、,大数据+数据湖+DW3.02020s云原生数据湖时代,湖仓一体单机+小机集群+一体机,集中式高可靠分布式+通用X86服务器,分布式高扩展云原生,Lakehouse(7.1.9 SP1)HDFSRangerAtlasIcebergZookeeperAvroOozieHMSKafkaImpalaSparkStreams Message MgrReplication ManagerCloudera ManagerSchema RegistryOzoneKnoxKuduHiveSolrPhoenixParquetLivyHueSqoopHBaseZeppelinORCYARNKey Trustee

3、ServerKey HSMNavigator EncryptStreams Replication MgrCruise ControlKafka StreamsKafka ConnectTezObjectStorageQuery EnginesAny CSPObject StoreMetastoreUnified Table FormatCLOUDERA ICEBERG REST COMPATIBLE METASTOREHive MetastoreStarRocksHiveHiveStarRocksHiveCloudera lakehouse enginesSDX摄取流式处理和数据流数据工程数

4、据仓库运营数据库人工智能&机器学习CLOUDERA消费机器学习仪表板/分析应用自助BI/即席查询格式化报表原始数据数据处理运营数据存储集成数据层固定报表批场景中,将Cloudera作为数据源,导入StarRocks下游流式场景中,利用Cloudera的Flink/Kafka作为算力,将StarRocks作为存储使用时,将StarRocks作为流批一体查询的OLAP引擎采集着陆和发现区数据源1数据源2数据源NNiFi/CDF编排 其他选项:Spark ETL SqoopKafkaStarRocks报表/交互分析StarRocks实时报表/大屏监控Hive Stage TablesHive/Spa

5、rk ProcessingEDW受管表(Parquet on HDFS,Kudu)机器学习CML EDWDMFlink+SSBSDX摄取流式处理和数据流数据工程数据仓库运营数据库人工智能&机器学习CLOUDERA消费机器学习仪表板/分析应用自助BI/即席查询格式化报表原始数据数据处理运营数据存储集成数据层固定报表流和批场景中,都将Cloudera Iceberg作为统一数据源,并利用Cloudera的算力,如Flink/Kafka/Spark处理数据使用时,将StarRocks用作OLAP引擎,查询位于Cloudera中的Iceberg外表数据源1数据源2数据源NNiFi/CDF编排 其他选项

6、:Spark ETL SqoopKafka报表/交互分析Iceberg实时报表/大屏监控Hive Stage TablesHive/Spark ProcessingEDW受管表(Parquet on HDFS,Kudu)机器学习CML Flink+SSBStarRocks采集着陆和发现区EDWDMProduce metadata&lineageMessagingConsume metadata&lineageSync,get and enrich metadata&lineage元数据服务Metadata Mana

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了数据仓库的发展历程和关键技术,以及Cloudera公司的相关产品和解决方案。从2000年代的DW1.0,到2010年代的DW2.0,再到2020年代的DW3.0和云原生数据湖时代,数据仓库技术经历了从集中式到分布式,再到云原生的演变。关键技术包括ETL、数据湖、MPP/DW、 streaming BI等。Cloudera的产品包括Hadoop、Spark、Kafka、Impala、Flink等,解决方案涵盖了数据仓库、数据湖、BI分析、机器学习等多个方面。文章还提到了StarRocks作为流批一体查询的OLAP引擎,以及在Cloudera环境中与其他技术的配合使用。最后,文章还介绍了元数据管理、数据安全等方面的内容。
"大数据时代,数据仓库如何演变?" 如何实现数据的高效处理与分析?" 如何赋能企业智能化转型?"
客服
商务合作
小程序
服务号
折叠