1、基于基于创新算法的半创新算法的半监督监督lookalike的的效果效果营销营销让 世 界 心 中 有 数目 录CONTENTS01.MobTech公司介绍02.市场分析03.Lookalike场景下样本补充技术04.营销场景下的模型算法05.转化率技术革新下的飞跃案例06.MobTech产品介绍Lookalike 市场分析厂家GoogleFacebookYahoo!微信建模方法predict modelpredict modelSVM,GBDT,LRLR/GBDT+LR主要特征近30天网页浏览行为,app行为,搜索行为,网页类型、query类型。社交行为,人口统计学标签人口统计学标签,网页浏览
2、行为、app行为社交行为、阅读、关注最小种子用户规模500100,推荐200+1000,推荐10000+/通过目标种子人群,扩散到整个到整个人群库中,根据种子特性,寻找最相似的人特点:只有正样本,且一般量级不大当使用分类模型来处理lookalike业务时,最大的问题就是负样本的获取。随机选取,依赖自然情况下负样本事件发生的概率较大。传统做法MobTech做法不用负样本:PNB算法PU Learning(Positive-Unlabelled Learning)Lookalike场景下样本补充技术半监督式机器学习详见下例NBSpy的基本思想是从P中划分出一个子集S,将S中的样本放到U中,从而得到
3、新的正样本集P-S和未标识样本集U+S。使用P-S作为正样本,U+S作为负样本进行分类,当分类结束后,利用对那些“间谍”样本的标识,确定一个阈值th,再对U中的文档进行划分得到可靠的负样本集合RN。其中,从P中划分子集S的数量比例一般为15%。Spy使用Rocchio算法与上述NB分类器计算RN的步骤很类似,只要把上述算法中第3步的分类器替换为Rocchio分类器即可。Rocchio对特征one hot编码后,对每个特征,如果其在P集合中的出现频次大于N集合,记该特征为正特征(Positive Feature,PF),所有满足该条件的特征组成一个PF集合。对U中的每个样本,如果其完全不包含PF
4、集合中的任意一个特征,则该样本应加入RN。1-DNF相比纯粹的随机挑选,尽可能地从无标注里剔除掉接近正样本的样本,有多种算法。Lookalike场景下样本补充技术半监督式机器学习给定正样本集PD及无标注样本UD在PD上学习正样本下各特征的概率分布#(|1)=,(-.,01),(01)引入超参Pr(1),使用业务经验、数据积累赋值,得到正负样本的先验概率。再利用全概率公式及UD,得到负样本各特征的概率分布#2=#20#0+#21#1#20=#2#(2|1)#(1)1#(1)但应用NB算法,需要计算负样本各特征的概率分布及正负样本的先验概率。在没有负样本ND的情况下。Lookalike场景下样本补
5、充技术半监督式机器学习大同小异,以NB为例:Step 1Assign each item in the class label-1Step 2Build a NB classifier using and Step 3Use the classifier to classify.Those items in that are classified as negative form the reliable negative set Step 4Assign each item in the class label 1相比纯随机挑选的负样本,使用进过PU-Learning后得到的负样本,最终得到
6、的模型在效果上能有2%5%的提升。Lookalike场景下样本补充技术半监督式机器学习将AUC理解为:从正负样本集中随机挑选一个正样本以及一个负样本,模型对正样本的Score大于负样本的Score的概率。形式化为:=Pr(.B.D).进一步的,设正样本集为P,负样本集为Q,计数函数g(x)如下:=G0,0,则()J=K0L(.(NB OD)LOPK0NPK最终,为了方便应用梯度下降法,将g(x)改为sigmoid函数,(当x值特别大时,sigmoid的结果等于g(x),故此为AUC的良好近似)=1R(.(NB OD)0,LN,O最终,能在验证集的AUC上取得3%左右的提升AUC是2分类问题中最