1、图机器学习在京东内容推荐中的应用姚翔宇京东-搜推内容算法组2024-1-27目录1/背景2/图基础能力打造3/视频召回中的图算法4/总结目录1/背景2/图基础能力打造3/视频召回中的图算法4/总结背景视频/直播+电商,迅速崛起并蓬勃发展京东视频及直播电商场景淘宝抖音直播内容背景视频/直播电商的价值用户:沉浸式内容更容易种草、产生信任,缩短决策时间,激发新兴趣,提升购物体验平台:有效提升平台的停留时长,带来更多的用户转化机会,提升转化效率商家:优质内容可以为商家带来更多流量和成单,为商家提供内容化的流量运营抓手首页为你推荐信息流视频落地页信息流京东视频电商示例背景工业界推荐系统链路:用户交互用户
2、交互算法链路算法链路视频直播背景推荐系统与图机器学习的联系用户-商品图上的链路预测=推荐节点表示=用户兴趣电商异质图实际电商场景相对复杂,包含多种类型节点及其复杂交互用户交互语义语义丰富丰富交互复杂交互复杂大规模异质图背景图神经网络(GNN)针对图结构数据设计的神经网络(一种邻居信息-一种节点表示)异质图神经网络(HGN)GNN的泛化版本,能处理复杂图结构与丰富语义(多种邻居信息-多种节点表示-表示融合)图神经网络异质图神经网络背景图卷积图池化搜推场域背景图召回架构图全域多模图神经网络(图卷积、图池化、图匹配、子图筛选、图预训练大模型)视频外页-交互图召回算法层数据层业务层视频内页-子图召回全
3、域数据 多模数据公域内容域广告场域私域商品域视频图片文本图索引召回目录1/背景2/图基础能力打造3/视频召回中的图算法4/总结搜推场域图基础能力打造图召回架构图全域多模图神经网络(图预训练大模型)算法层数据层业务层全域数据 多模数据公域内容域广告场域私域商品域视频图片文本图基础能力打造已有方法:传统建模比较依赖用户行为序列,受到用户行为session限制挑战&方案 如何对亿级图数据进行高效建模 如何对复杂的异构多源数据融合挑战:图节点表示能力有限在图模型设计上考虑数据(大且丰富)和模型(大且通用)2个维度方案:全域多模图预训练大模型全域多模图M5-Graph1.Multi-Domain:搜索,
4、推荐,广告等2.Multi-Material:商品,视频,直播等3.Multi-Position:首页,商详,内页等4.Multi-Relation:点击,观看,转发等5.Multi-Modal:图片模态,文本模态等全域数据内容域广告场域私域商品域搜推场域公域图基础能力打造图基础能力打造预训练模型M5-GPT 节点类型转换:邻居的重要性:节点级别聚合:图基础能力打造具体方案模型训练:模型训练:通过用户是否点击的训练任务,来指导模型学习用户和视频的表示推断:推断:输出预训练的视频侧Video embedding线上服务线上服务:通过向量化检索的方式得到video2video词表通过载入预训练em
5、b的方式升级召回,排序的模型图基础能力打造实验效果 离线AUC等指标提升,在线效率和生态指标都显著提升,已完成全量实验图基础能力打造实验效果 实时触发召回图基础能力打造实验效果图基础能力打造词表生成与上线视频表示的基础上,利用向量化检索包 faiss生成video2video(v2v)词表词表用户对视频的行为(包括点击、完播、评论等)作为触发,召回候选视频图基础能力打造应用场景目录1/背景2/图基础能力打造3/视频召回中的图算法4/总结搜推场域视频外页-交互图召回 图召回架构图视频外页-交互图召回算法层数据层业务层全域数据 多模数据公域内容域广告场域私域商品域视频图片文本视频外页-交互图召回业
6、务特点新兴素材面临更严重的数据稀疏:用户量和交互量偏低用户点击过的视频和商品有一定的相关性用户-商品交互量用户-视频交互量 视频外页-交互图召回已有方法:仅考虑单域的行为与兴趣,缺乏用户在不同域行为兴趣的潜在联系的刻画挑战&方案 1.统一描述用户在不同域的异构行为 2.建立不同域行为兴趣偏好的联系挑战:不同域行为兴趣的联系建模构建双域图在图上建模交互并学习表示方案:多域交互图召回视频域、商品域:基础边、异构边节点表示初始化单图内部交互多图外部交互用户双域行为和兴趣的对齐和互补兴趣表示抽取、多域表示融合视频外页-交互图召回具体方案双域图的构建在双域图上建模