1、在线优化技术在快手联盟上的实践和产品化谢淼 博士,副研究员快手高级算法专家在线多臂赌博机技术简介及落地时的大坑如何为深度模型插上探索的翅膀快手广告联盟内循环的起量建模过程快手Online Bandits 算法栈及其产品化目录灵魂拷问灵魂拷问面临选择的时候如何思考呢?利用利用基于自己的人生经验经验对当前选择进行预判,选择自己“认为认为”的能使得自己最有利的选项探索探索跳出跳出自己的经验认知,勇于尝试新选项新选项,对经验进行刷新与积累,力图全局最优如果存在一种技术,能够帮助大家来做选择,并能在人生的长河中,使得累计收益最大化辅佐整个过程Online Multi-armed Bandit 技术小章鱼
2、的心声:今天翘班来赌场,一下午就泡在这里了,我有个选择障碍:在赌场里有那么多的赌博机,哪个好?选哪个?我应该如何玩,才能赚更多的钱?一段时间有N个候选项期待达到一个目标每次选K个神:先随机玩一段时间看看吧。小章鱼:玩了一段时间,并计算了一下收益这经验靠谱吗?神:给你2个选择(Dilemma)(1)相信它-Exploitation,选第一个,求稳求稳。(2)不相信它-Exploration,选个其他的,机会与风险共存。E&E是一种为了达到长期收益所采取的有效手段Arm1Arm2Arm3Arm4N个离散选项的在线E&E问题建模的通用形式Input:给定N个候选项(Arm),从中选择K个;如果有多组
3、独立的问题实例,则称为不同的machine。分成T轮的序列决策问题(t=1,T):1.每个时间步,算法可从N中选择K个Actions。2.环境每次会依赖算法的选项,给出一个反馈reward,。,每个候选项背后都是一个与reward相关的未知分布(分布形态与参数都可能未知)。3.算法获得了反馈向量 ,作为下一轮选择的依据。算法的优化目标:最小化累计后悔度regret在线赌博机技术的适用范围冷启场景冷用户冷商品冷系统大促场景候选好坏与平时不符E&E问题需要探索调参离散参数连续参数策略选择运营策略产品策略思考:如果经验已经足够准,那么还需要这个技术吗?素材优选素材优选(Feeds,猜你喜欢,搜索)推
4、荐理由店铺/菜品的首图/视频/广告词等新品推荐新商品优选文章冷启动浏览只有246二手商品运营&产品文案个性化:文案个性化:文案文案是脑拍脑拍的,不同行业差别大,不同时间投放差异也大;选文案选文案更是脑脑拍拍的智能智能UI:控件,内容,版控件,内容,版式的组合爆炸问式的组合爆炸问题。题。咋选?还是脑拍咋选?还是脑拍Stochastic Multi-armed Bandit 的问题定义&假设1、Arm与Reward直接相关,不同的arm,reward的分布不同2、对于一个arm每次reward采样是iid的。3、不同arm之间同样是独立的。epsilon-greedy选择经验均值最大的那个候选随机
5、选一个UCB1Thompson SamplingRegret Bound:与分布无关 log T 与分布有关 012 log MABMAB 的的 E&EE&E 为什么很重要,与机器学习中模型技术形成良好互补为什么很重要,与机器学习中模型技术形成良好互补数据集在线打分&排序(1)无数据/孤品/在线参数-存在机器学习模型无法构建的情况(2)实时性-天级别训练模型不实时?(3)冷启动-新商品?新用户?(4)动态性-用户兴趣发生显著变化?将Bandit模型应用于业务时所面临的大坑问题建模问题建模依赖对实际业务问题的建模与抽象需要先确定什么是Machine,什么是Arm,收益如何计算等算法假设算法假设B
6、andit算法在提出时,一般都有些特殊假设,需要确定业务中实际情况满足所用算法的假设超参数超参数离线与在线长链路离线与在线长链路Bandit算法中存在一些超参数与累计收益相关,存在调优空间,上线所需搭建链路较长,一步错步步错,计算过程与现有系统如何融合。快手广告联盟内循环起量建模过程业务核心问题业务核心问题BanditBandit算法建模与迭代算法建模与迭代快手广告联盟内循环起量核心问题唤端激励视频信息流插屏Draw流开屏全屏众多广告场景众多广告场景众多众多APP流量池流量池通过ecpm竞价,进行双侧匹配在不影响已起量广告的基础上,如何帮助内循环广告外投快速起量?难点难点1.现有联盟消耗日均已