1、基于深度学习的个性化推荐系统实时化改造与升级王华峰阿里云计算平台事业部经典离线推荐系统回顾实时推荐系统演进HSAP(Hybrid Serving/Analytical Processing)理念介绍新型的深度学习个性化推荐系统架构介绍经典离线推荐系统回顾搜推广业务用户行为日志离线数仓推理服务特征存储数据加工用户/商品特征(T+1)样本存储样本拼接模型中心离线训练算法模型(T+1)经典离线推荐系统局限性静态的模型和特征一旦某个用户被划分为某个类别,则他将一直处于这个类别,直到被新的模型训练重新分类,用户的行为越来越多元化,无法划分到某个固定类别冷启动场景,用户特征不存在,难以精准推荐无法快速迭代
2、模型算法离线=实时实时特征:商品最近5分钟的点击量、过去7天的浏览量实时样本&在线训练离线推荐系统搜推广业务用户行为日志离线数仓推理服务特征存储数据加工用户/商品特征(T+1)样本存储样本拼接模型中心离线训练算法模型(T+1)实时推荐系统搜推广业务用户行为日志离线数仓推理服务特征存储离线特征用户/商品特征消息队列实时特征计算实时推荐系统搜推广业务用户行为日志离线数仓推理服务特征存储离线特征用户/商品特征样本存储模型中心消息队列实时特征计算实时样本拼接在线训练离线训练实时推荐系统搜推广业务用户行为日志离线数仓推理服务特征存储离线特征用户/商品特征样本存储模型中心消息队列实时特征计算实时样本拼接在
3、线训练离线训练实时数仓BI实时推荐系统搜推广业务用户行为日志离线数仓推理服务特征存储离线特征用户/商品特征样本存储模型中心消息队列实时特征计算实时样本拼接在线训练离线训练实时数仓BIApache Flink简介高性能低延迟的纯流式计算引擎流批一体提供SQL接口,开发简单Alink:基于Flink的通用算法平台实时推荐系统搜推广业务用户行为日志离线数仓推理服务特征存储离线特征用户/商品特征样本存储模型中心消息队列实时特征计算实时样本拼接在线训练离线训练实时数仓BI实时推荐系统搜推广业务用户行为日志Hive推理服务Hbase/Redis离线特征用户/商品特征Hive模型中心Kafka实时特征计算实
4、时样本拼接在线训练离线训练ClickhouseBI实时推荐系统的挑战样本数据的一致性(实时ETL作业Failover)样本Label的一致性(支付行为发生在点击行为之后很久)高吞吐低延迟实时推荐系统搜推广业务用户行为日志离线数仓推理服务?离线特征用户/商品特征?模型中心Kafka实时特征计算实时样本拼接在线训练离线训练?BI什么是HSAP?Hybrid Serving/Analytical Processing 统一的数据存储 统一的数据服务接口BatchAnalyticalServingTransactionHSAPHSAP理念的由来KafkaFlinkSubscriptionRealtim
5、e IngestionDim JoinHBaseCassandraDashboardsPoint Lookups 点查HSAP理念的由来KafkaFlinkSubscriptionRealtime IngestionDim JoinClickHouseDruidHBaseCassandraPrestoReportsDashboardsPoint Lookups 点查Realtime Analytics实时OLAP分析HSAP理念的由来KafkaFlinkSubscriptionArchivingRealtime IngestionDim JoinHiveClickHouseDruidHBase
6、CassandraPrestoReportsDashboardsBatch Processing批处理Point Lookups 点查Realtime Analytics实时OLAP分析HSAP理念的由来KafkaFlinkSubscriptionArchivingRealtime IngestionDim JoinHiveClickHouseDruidHBaseCassandraDrillPrestoReportsDashboardsBatch Processing批处理Batch Acceleration 离线加速Federated Analytics 联邦计算Point Lookups