1、DataFunSummit#2024小红书去中心化内容分发技术大辅(苏睿龙)-小红书-应用模型算法负责人小红书数十亿可分发内容池日新增发布数百万日均曝光数百亿互动UV占比近50%日均搜索规模3亿+推荐搜索直播视频图文01背景核心问题链路分析解决思路02强化sideinfo使用Sideinfo解耦图模型+sideinfoAttention is All You Need03多模信号全链路融合多模对比学习多模特征交叉基于多模的后排打散算法04兴趣探索及链路保护召回-多兴趣探索和EE兴趣探索中间链路-潜在兴趣保量后排-基于大模型的潜在兴趣强化目录 CONTENTDataFunSummit#20240
2、1背景UGC社区 内容是作者和用户的桥梁 好的社区:去中心化分发去中心化分发 需要从内容侧和用户侧分别解决内容用户作者核心问题 去中心化分发的核心 学的快:每个阶段都能对中长尾内容和兴趣快速学习 学的好:每个阶段都能对中长尾内容和兴趣有效透出 Garbage In,Garbage Out 越是上游链路,对去中心化分发来说越重要分钟级推荐系统精排小时级更新粗排小时级更新召回模型小时级更新精排分钟级更新粗排分钟级更新召回U2I模型分钟级更新召回CF分钟级GNN小时级更新召回索引分钟级更新召回I2I模型分钟级更新排序升级GPU异构训练学的快?Yes2020 Q32020 Q42020 Q42021
3、Q22021 Q32021 Q22022 Q22022 Q32022 Q42023 Q4链路分析 学的好?Not Really 召回头部渠道分发高热,导致下游可分发的中长尾内容变少 排序靠前的经常是比较热门的内容或用户历史兴趣高度相似的内容 后排打散做的不够好,对内容信号利用不足 主要原因对笔记ID依赖较强过度依赖行为信号系统反复自我拟合解决思路信号单一:强化sideinfo信息茧房-内容侧:多模信号全链路融合信息茧房-用户侧:兴趣探索及链路保护 信号单一:除noteid外,强化sideinfo的利用 信息茧房 内容侧:全链路引入多模内容信号 用户侧:系统性加强兴趣探索和保护DataFunSu
4、mmit#202402强化Sideinfo使用Sideinfo解耦 问题 召回通常过于重视样本,忽视对sideinfo的有效利用 sideinfo和noteid特征做sum pooling?-信号被淹没 只在底层加sideinfo特征?-信号学习太弱 解法:将sideinfo做拆分建模 单独的序列建模 残差强化,attention输出和sideinfo输入相加 该方法也推广到了其他模块图模型+sideinfo 图算法自身优势 扩展性 多样性 CF建图+引入Sideinfo 根据用户的共现行为,构建笔记-笔记的边,利用CF的准确性优势 根据笔记的sideinfo,构建笔记-sideinfo的边,
5、利用CB的泛化性优势 异构图消偏:Exposure Bias:将普通CF替换为Swing Popular Bias:后门准则消偏,缓解super node Structure Bias:multi meta-path,缓解super path 图的时效性也很重要!Attention is All You Need 基于sideinfo的hard attention sparse:以target item的类目和属性做为hit条件,将命中的lastn表征做融合 dense:把hit得到的统计值作为特征与原始embedding layer做concat 基于sideinfo的target atte
6、ntion weighted fusion:使用sideinfo作为target attention模块中的基础信息计算不同lastn的权重 early fusion:将target item的sideinfo与用户lastn的sideinfo进行提前融合 基于sideinfo的self attention transformer:基于sideinfo维度的user侧lastn的self attention behavior select unit:使用sideinfo信息构造gate网络,控制用户不同lastn的