1、自然语言生成在游戏AI创作中的应用刘琦 腾讯-IEG 高级研究员|01业务背景业务介绍任务目标与挑战03业务应用业务效果04工作展望进一步工作目录|02业务案例游戏视频智能标题生成|01业务背景业务介绍自然语言生成应用场景目标与挑战业务介绍|自然语言生成应用场景游戏短视频AI创作全球数字内容创作市场规模庞大。国内短视频海量的用户和创作诉求。游戏短视频内容创作制作门槛高。实现游戏创作自动化、规模化的工业化生产 游戏视频标题生成 视频字幕文案生成 智能弹幕生成 游戏视频解说 游戏玩家昵称生成生成目标与挑战生成目标与挑战 生成没有语义错误和冗余 流畅不生硬,接近人的表达 描述可控,忠于原始信息 内容
2、丰富,不单调无聊基础高阶|02业务应用案例游戏视频智能标题生成1.任务背景2.基础模型方案3.基于基础模型改进方法4.最终模型方案任务背景|模型选择任务类型:文本-文本、数据-文本、图像-文本、视频-文本生成方法:基于规则、基于规划、数据驱动主流模型:编码器-解码器框架、生成式对抗网络、变分自编码器、预训练语言模型问题解析:游戏内容复杂多样,信息模态各有不同,但结构化数据缺乏。任务对生成内容的语义准确性要求较高。目标学习数据主要来自直播/解说视频,学习难度大。有监督数据少,标注成本高。任务定义:输入:给定平台(视频号、抖音、B站、快手等)和某种视频输入(原视频、视频标签)输出:满足平台风格,描
3、述视频内容准确、流畅,具备一定趣味性和多样性的视频标题基础模型方案|Text2text:基于预训练的视频关键词到标题文案生成中文pre-train游戏领域pre-train任务fine-tuning 上下文:1024 词向量:1024 head数:16 层数:12数据:5800w条视频(标题、描述、标签)语料 2600w玩家昵称数据 200w图文资讯语料 20w条短视频文案语料 8w视频ASR解说语料经典的预训练业务应用范式 数据语料:和平精英游戏视频标签和标题26w 训练阶段:2机16卡,100epoch 预测阶段:输入游戏标签自动生成标题文案基础模型方案|冗余错误多,不够流畅针对数据研究,
4、样本增强和词表优化方面提高根据任务特点,模型结构和训练策略上改进适配业务场景,整体解决方案设计上的优化 生成内容不可控 标题多样性不足生成效果的不足:怎么这辆波波车一打就打爆刺激战场 游戏中使用率最高常见的武器居然是他 两个一看就会的刚枪小技巧 火力全开,有掩体都不行 刚枪王是如何诞生的 M762高架击杀灭队 队友M416高架击杀灭队 高架M416击杀灭队与事实不符改进思路打爆刺激战场-错误使用率最高/常见-重复击杀灭队生成单一基础模型的改进方法|冗余错误多,不够流畅数据增强词汇替换-基于同义词的词典输入顺序-效果发现对标签顺序敏感,增加标签顺序替换反向翻译-实际发现语料中口语化词太多,效果增
5、益不明显1.常规词表的问题有哪些?常规词表的问题有哪些?汉语是按照词语的粒度构成,OOV问题模型无法处理和生成。词语粒度低频词在模型训练中无法充分训练。词语粒度不同形态(宝贝-宝贝儿)的词会当不同次处理,增加训练冗余和词表大小。2.为什么要子词?为什么要子词?中文基于字粒度可以解决OOV问题,但是丢失词语的语义信息。子词降低词典的大小,对相近词处理友好。3.子词方法有哪些?子词方法有哪些?主流的有三种方法:Byte Pair Encoding、WordPiece、UnigramLanguage Model。基于SentencePiece开源实现,训练及应用简单方便。子词词表优化-构建游戏领域词
6、表数据层面模型结构基础模型的改进方法|“大”模型在下游“小”数据不匹配导致过拟合问题 冗余错误多,不够流畅数据层面模型结构核心思路:forward的时正常fine-tunebackward更新一部分参数优势:模型入侵性小,不引入额外新模块 实现简单,类dropout思想基础模型的改进方法|预训练模型可控文本生成代表性模型 准确性和可读性不够 生成内容不可控CTRLPPLM控制给定模型基于源文本产生特定属性的文本。特定属性包括文本的风格、内容、情感、格式等。GeDiPrefix-TuningControl PrefixesContrastive Prefi