1、DataFunSummitDataFunSummit#20242024多模态多模态LLMLLM在云音乐推荐场景在云音乐推荐场景的落地应用的落地应用姓名:潘一飞网易资深算法工程师背景介绍整体架构技术方案未来展望LLM助力音乐推荐业务01背景介绍1.1 1.1 背景背景Background1.大语言模型作为人工智能领域的前沿技术,近年来取得了显著进展2.更精准的语言生成与推理能力,广泛应用于客服、教育、娱乐等多个领域3.除了主打文本形态的大语言模型之外,能够处理文本、图像、音频和视频等多种模态数据的多模态大模型,正以其强大的内容理解与个性化生成等能力引领着行业变革1.1 1.1 背景背景Backg
2、roundUGCUGC歌单歌单MGCMGC歌单歌单每日推荐每日推荐列表式推荐每日更新私人私人FMFM流式推荐实时更新用户生产内容千人一面机器生产内容千人千面 音乐场景中所包含的丰富的歌词文本、专辑图片、音频是天然应用大模型的阵地1.1 1.1 背景背景Background 关键作用:促进用户增长、提升用户粘性的核心手段 场景众多:从经典的每日推荐,衍生出私人漫游,雷达歌单等众多创新场景,可控占比高云音乐推荐场景挑战:1、马太效应,数据倾斜2、新内容冷启动,新歌分发效率1.1 1.1 背景背景Background马太效应,新内容冷启 推荐系统主要由用户行为驱动建模,ID-based 个性化分发倾
3、向头部内容,新内容表征不佳,缺乏行为交互大模型的兴起与发展提供解决方案 专辑封面图片 歌曲歌词 歌曲基础属性:歌曲名、歌手、语种、曲风、乐器、奖项.用户热评 音频.音乐的丰富多元的表征方式基于大模型的多模态音乐表征1.1 1.1 背景背景Background基于大模型的多模态音乐表征可以有哪些帮助 全方位的生成音乐内容表征,加深对音乐理解能力 缓解马太效应,提升长尾歌曲的分发效率 缓解新歌冷启动,改善云音乐的推荐生态增效增效1.2 1.2 难点难点Difficulties基于LLM的多模态表征生产1大模型知识与推荐领域对齐多模态LLM 表征和推荐系统下ID-base表征对齐方式探索多模态信息在
4、推荐模型中的应用2prompt的设计与构造基于大模型的多模态表征稳定生产链路搭建1.3 1.3 成果成果总结总结Conclusion覆盖场景覆盖场景每日推荐、私人漫游、歌单推荐、长音频场景增效增效 播放时长+3%,点击率+3%,分发歌单数+50%,新歌分发效率+3%长音频曝光人均时长+4%02整体架构设计2.1 2.1 系统系统框架框架Framework关键词:自底向上,协同统一2.2 2.2 基于大模型的多模态表征基于大模型的多模态表征抽取抽取Framework多模态表征生产链路2.3 2.3 模型模型架构架构Framework基于LLM的开放世界知识空间与推荐领域下的端到端对齐方式03技术
5、方案3.1 Prompt3.1 Prompt构造构造Feature extraction基于大模型的多模态表征抽取one case 歌曲【抬头】instruction:歌曲简介如下 歌曲基础属性:歌曲名是抬头,演唱歌手是“陈光荣”,歌曲所属的地区是“港台”,语种是“纯音乐”,一级曲风是“原声带”.乐评:陈光荣用纯音乐讲述着希望与无奈的故事,无需言语,情感共鸣 乐器:小提琴,钢琴 歌词:.歌曲文本prompt构造如下:专辑封面 歌曲图片特征 歌曲音频特征3.2 3.2 特征特征抽取抽取Feature extraction基于大模型的多模态表征抽取使用多worker的方式并行处理数据,加速推理速度
6、3.3 3.3 离线离线验证验证Offline verification百川语言大模型case抓住了文字中情绪和感受的那一面,深入到具体的情感内容理解相似推荐(用户行为协同过滤)的结果再看【传统NLP模型】关联出的结果传统NLP模型更偏向字符匹配和文字相似度,多样性比较差3.3 3.3 离线离线验证验证Offline verificationOne more case 世界知识的体现能够捕捉到元宵与新年、除夕、祈福等主题,并关联到对应的歌单LLM相比传统的语言模型,能够运用世界知识和推理,产生更广泛的关联性构建(例如情绪、诗意、民俗理解)百川语言大模型c