当前位置:首页 > 报告详情

蔡庆芃_短视频推荐强化学习算法_watermark.pdf

上传人: 张** 编号:155511 2024-02-15 50页 2.98MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了强化学习在短视频推荐系统中的应用,涉及多目标优化、大动作空间和延迟反馈等问题。作者提出了两阶段约束演员评论家(Two-Stage Constrained Actor-Critic)算法,分别优化辅助响应和主要响应,并通过软性正则化使政策接近其他辅助政策。实验表明,该方法在观看时间、互动等方面优于传统方法。此外,文章还讨论了用户留存问题,提出了基于无限期马尔可夫决策过程的留存算法,并通过 heuristic 奖励和内在奖励增强学习。最后,文章概述了相关代码实现和仿真器。
"短视频推荐系统的强化学习挑战有哪些?" "如何在短视频推荐系统中平衡探索与利用?" "短视频推荐系统中,如何优化用户留存率?"
客服
商务合作
小程序
服务号
折叠