《A2--甘纯--智能博弈与动态优化:AI Agent在京东广告拍卖中的创新实践.pdf》由会员分享,可在线阅读,更多相关《A2--甘纯--智能博弈与动态优化:AI Agent在京东广告拍卖中的创新实践.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、甘纯 京东广告机制负责人智能博弈与动态优化:AI Agent在京东广告拍卖中的创新实践甘纯京东广告机制负责人本科毕业于上海交通大学数学系,博士毕业于美国威斯康星大学麦迪逊分校数学系博士期间研究方向为 理论数学、机器学习以及NLP,获得了ACL2021最佳论文奖目前负责京东广告机制设计,主要工作包括使用博弈论建模平台与商家的多智能体博弈问题,通过强化学习、生成式模型提升流量分发效率以及平台广告收入。在此之前曾负责京东推荐广告排序机制(包括重排、混排等)。01020304电商平台广告流量拍卖及智能投放基于多智能体强化学习的AI Agent框架基于超网络的训练算法及应用实践效果与未来展望电商平台广告
2、流量拍卖及智能投放业务背景:万亿级别的电商平台广告市场 据普华永道统计,电商平台中的广告业务已接近万亿规模的市场。广告通过流量竞拍为用户、商家、平台三方创造价值:用户购物体验,商家GMV,平台广告收入。业务背景:依托于京东平台,智能投放产品的推广普及 为了提升商家投放效果,智能投放技术在近十年逐步兴起且成为商家主要投放手段。在电商场景下,一种新的产品形态(全站营销:从商家经营视角的广告投放产品)逐步推广。技术背景:生成式大模型、Agent浪潮下的广告技术演进ToC:京东京言导购助手ToB:京准通智能投放助手案例简介:连接BC端的多智能体广告竞价机制设计智能体智能体目标目标顺序顺序环境环境状态状
3、态动作动作奖励奖励投手ROI约束 GMV最大化1平台、运营报表、市场 费率、毛利 商家量价敏感性开启暂停计划/充值 渠道/关键词/人群 预算/TROI表达超/欠 达成、GMV增量出价收入最大化 达成率2机制、用户、商家单元达成情况、消耗速度等bid ratio调整达成情况机制收入最大化3出价、用户流量分布、平台目标、商家出价保留价、扣费、分配规则广告收入、ADV等运营商家意图引导(包括预算激发)4商家、平台报表情况、平台意志、商家类型预算建议、选品推荐等建议采纳率等针对智能投放、全站营销这类新的智能投放广告产品形态,传统的单次流量下激励相 容的拍卖规则已经无法保证高效运行。通过引入AI Age
4、nt进行在线自适应决策,平台机制和智能投放Agent感知实时流量特征、广告主的消耗及达成情况,从而实现全局最优的分配与计费。案例要点AI Agent框架流量分布动态变化商家出价动态变化平台和商家博弈问题(合作)广告竞价是一个动态流量环境下的多智能体博弈问题广告主1广告主2广告主3智能出价Agent平台机制Agent用户智能出价:以价值最大化为目标,且包含ROI约束以及预算约束的优化问题。在知道流量分布以及竞价机制是truthful的情况下,可以通过松弛互补条件得到理论最优解。智能出价Agent行业主流:智能出价Agent主要是是通过强化学习/生成式模型进行训练的。实现逻辑:简单来说,通过将GM
5、V作为奖励函数、约束违反程度作为惩罚,智能出价Agent可以实时调整出价策略,从而保证ROI符合预期。平台机制Agent平台机制:平台机制需要确定每次流量的分配和计费规则,经典的机制设计仅优化单次拍卖 收益。根据不同商品的点击率、出价等信息计算分配得分。之后按照激励相容的规则进行计费。传统做法:广告机制通常使用基于点击率和出价的贪心排序+二价计费;行业主流:广告机制使用基于强化学习的模型化拍卖,同时考虑收入最大化和激励相容性约束。Hypernetwork:感知Agent间动态变化的纽带 问题:在一个博弈环境中独立优化,无法达到帕累托均衡由于智能出价Agent的存在,出价策略会根据在线流量特征以
6、及实时ROI达成情况进行调整。思路:需要一个能够在动态环境中感知并且影响多Agent的纽带机制&出价Agent需要实时感知流量分布以及Agent状态的动态变化以保证实时最优性。定义:通过训练一个生成器网络来动态生成另一个神经网络的参数。典型架构:主网络(Target Network)与生成器(HyperNet)组成,后者生成前者的权重。适用场景:面对超大规模模型时,如何降低计算和存储开销,同时提升模型的表示能力。Hypernetwork:感知Agent间动态变化的纽带训练算法及应用 生成式出价:采集出价单元级别bi