当前位置:首页 > 报告详情

3-曹富强-Flink 实时计算在微博的应用-V6-TSY-对外.pdf

上传人: li 编号:29293 2021-02-07 26页 2.18MB

1、Flink 实时计算在微博的应用 曹富强 / 微博机器学习研发中心数据计算负责人,高级系统工程师 数据计算平台介绍 #2 微博介绍 #1 Flink在数据计算平台的应用 #3 微博介绍 #1 微博 中国领先的社交媒体平台 日活跃用户DAU 2.41亿 月活跃用户DAU 5.5亿 移动月活占比 94% 数据计算平台介绍#2 概况 数据计算 实时特征 批流一体 数据仓库 概况 数 据 计 算 平 台 架 构 图 数据服务 数据计算 平台 集群 调度 业务推荐流关系流小视频广告搜索正文页动态流. 实时数仓特征工程离线数仓 数据同步内容去重多模态内容理解实时特征生成 Flink实时计算Storm实时计

2、算流式样本生成流式模型训练 Sql计算 tez WAIC-微博AI平台 Flink/StormHadoop/Hdfs K8s/Yarn 数据中台 数据计算 实时计算离线计算 主要包括 实时特征生成 实时样本生成 多媒体特征生成 其他实时计算 主要包括 即席查询 数据查询 数据生成 表管理 实时特征 作业提交-UI实时特征流程图 输入源 kafka redis trigger mcq 计算引擎 Storm 实时计算服务 Flink 实时计算服务 存储/查询 motan sdk 特征工程 业务应用 业务-1 业务-2 业务-3 监控 输入数据源监控作业异常监控特征写入监控特征读取监控 批流一体 批

3、流代码统一 提高开发效率 批流元数据统一 统一管理,保证元数据一致 批流程序混跑 节省资源 批流统一调度 提高集群利用 流式计算 批量计算 数据 仓库 离线日志 实时日志 YarnK8S 统一元数据 集群-1集群-2集群-3集群-4 计算引擎 Hive SQL/Spark SQL Flink SQL 统 一 调 度 数据仓库 架构图 建立实时数仓来解决离线特征更新周期长的问题 使用Flink Sql-解决stream 作业开发周期长的问题 离线数仓/实时数仓统一元数据管理 计算引擎 /元数据 实时数仓 离线数仓SRC/原始日志DWM/数据中间层DWS/数据服务层 Hive/Spark Flink Sql MetaStore kafkaFlink SqlkafkaFlink Sqlkafka 实时存储 ES/Hbase/Redis/ClickHouse SRC/原始表DWM/数据中间层DWS

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
微博的实时计算和数据处理平台主要采用Flink进行,它在微博中国领先的社交媒体平台上扮演着重要角色。微博拥有2.41亿的日活跃用户和5.5亿的月活跃用户,其中移动月活占比达到94%。微博使用Flink进行数据计算平台的建设,包括实时特征、批流一体、数据仓库等方面的应用。Flink在实时数仓建设、流式作业开发周期等方面提供了有效的解决方案。微博的流式机器学习使用Flink进行,能够实时化特征和样本,实时训练模型,及时反映线上变化。微博还构建了一整套内容去重服务平台,具有低延迟、高稳定性、高召回率的特点,应用于视频版权保护、全站微博视频去重等多个业务场景。
"Flink在微博数据计算中的应用有哪些亮点?" "如何利用Flink实现流式机器学习样本的高效生成?" "微博如何通过Flink实现实时特征计算与内容去重?"
客服
商务合作
小程序
服务号
折叠