1、大语言模型在陌陌社交平台的应用探索李思臻 陌陌 算法研究员李思臻陌陌 算法研究员“负责陌陌/探探社区场景的社交推荐、用户理解、内容理解等算法技术体系的研发与优化,目前专注于大语言模型技术在社交等业务场景的落地应用。”讲师简介 关于陌陌 大语言模型的技术概要 大语言模型在陌陌的应用目录关于陌陌关于陌陌 陌陌是一款开放式的移动社交应用 更好的陌生人社交体验 动态动态社交业务关于陌陌以内容为载体的社交场景以内容为载体的社交场景 广场社区:分享/发现新鲜事 互动社交:找到感兴趣的人关于陌陌发布消费社交打招呼回复大语言模型的技术概要大语言模型的技术概要LLM技术概要发展背景ChatGPT的划时代意义大语
2、言模型改变了人们对AI的认知国内外LLM技术呈现爆发式增长2019.2GPT-22020.6GPT-32022.11ChatGPT2022.3InstructGPT2023.3GPT42021.12WebGPT2021.7Codex2021.12GLM2023.3ChatGLM2023MOSSBaichuanQwenInternLM百度文心讯飞星火字节云雀华为盘古腾讯混元2023.2LLaMA2022.5OPTBLOOMLLM技术概要指令微调SFT对预训练LLM进行有监督指令微调Pretrained Causal Language Model什么是陌陌?陌陌是一款社交应用EOS是陌陌?陌陌是一
3、款社交应用EOSLLaMABLOOMChatGLMBaichuanQwen.预训练LLM指令微调模型SFTModelNext token prediction指令数据集SFT的不足数据层面的不足之处数据多样性安全边界知识边界回答多样性受限有害/侵权等编造知识/幻觉Teacher forcing训练目标的不足之处稳定收敛并行化训练Exposure biasToken-levelDecoderABCDBCDtraininginferenceDecoderABE?generate充分利用预训练知识与人类的交互方式进行对齐写一句晚安文案帮我关一下月亮谢谢。写一句晚安文案PolicyDecoderRew
4、ardmodel1.2RLPPOSequence-level基于反馈的探索与提升有用性/安全性/更好的知识边界更低的标注成本LLM技术概要人类偏好对齐RLHF通过RLHF进一步提高生成内容的质量RLHF的挑战Scaling Laws for Reward Model Overoptimization Leo Gao et al.,2022RL训练高成本、不稳定Reward hacking/ODPORRHFLLM技术概要其他对齐方法训练更稳定且低成本的对齐方法SFTModelRewardModelfinetuneranksamplem sampletopk sampleReject Sampli
5、ngRAFTRLAIF基于数据增强的对齐方法LLM技术概要多模态LLM让LLM不仅能处理文字,还能处理图像输入BLIP2FlamingoMulti-modal Language Model描述这张图片这张图片显示的是雪地上的兔子形状的画。画作相当简单,仅用几条线条勾勒出兔子的轮廓和面部特征,包括两只竖起的耳朵、一对圆圆的眼睛和一个微笑的嘴其他AIGC技术图片生成技术也发展得如火如荼DiffusionModelsA propaganda poster depicting a cat dressed as french emperor napoleon holding a piece of che
6、ese.Digital illustration of a beach scene crafted from yarn.The sandy beach is depicted with beige yarn,waves are made of blue and white yarn crashing onto the shore.A yarn sun sets on the horizon,casting a warm glow.Yarn palm trees sway gently,and little yarn seashells dot the shoreline.DALLE LLMLL