1、DataFunSummitDataFunSummit#20242024腾讯游戏知几语音合成大模型推理加速方案李正兴/腾讯高级工程师背景介绍语音合成模型结构分析语音合成模型推理思路未来展望01背景介绍背景-产品展示01、王者荣耀小妲己“游戏知识问答”02、和平第五人的AI语音助手03、天涯明月刀绝智阿暖智能NPC范闲范闲老头老头云悠悠云悠悠英语男英语男英语女英语女原音CFer你好呀!喜欢姐姐的AK四七吗?不喜欢的话还有M四A一和AN九四哦.姐姐的ASMR你受得了吗?I love you my sweetheart你在开什么玩笑?我才不会上当呢。背景-产品展示 TTS:更自然、韵律丰富、更实时采用
2、LM方案-自研知音语音大模型 10s 音频完成声音复刻通过加速优化,实时率0.085Language ModelAudio EncoderText EncoderAudio Decoder喜欢我在你耳边说话的感觉吗?02模型结构选型与分析输入文本声学模型FastSpeech/Tacotron声码器hifigan/wavernn传统方案基于语言模型的新方案语音合成大模型结构输入文本LM Model12 439Semantic Token|Acoustic Token st12 439LM Model/NAR Model1243971216816523Acoustic Token124397121
3、6816523Codec Decoder 语音合成大模型结构面临的挑战:1.高并发场景2.实时率问题03模型推理加速方案推理加速方案-借鉴与选择是否能将NLP领域的LLM 推理加速方法应用到语音合成大模型上?kv cacheflash decode prefix kv cacheflash attention 投机采样Int4/int8 量化page attention.LLM 中的kv cache:推理加速方案-kv cacheStep 2,without kv cache:Step 1:Step 2,with kv cache:推理加速方案-kv cache 语音ar模型中 attenti
4、on mask与attention 计算满足满足kv cache的使用的使用 当attention mask使得attention的计算满足以下条件时,就能使用kv cacheattention output的第n行只与第n个q相关第1n个token的attention的计算包含第1n-1个token的attention计算每次attention的计算都用前面k和v生成第n个tokenattention_maskattention_maskMask(Q*K)Mask(Q*K)推理加速方案-kv cache对于prefill阶段来说是典型的计算受限场景,计算的瓶颈占据主导。而到了decode 阶
5、段,就是典型的访存受限场景,访存的瓶颈占据主导推理加速方案-GQA 将head num从16减少到4,推理耗时降低20%相比 kv cache int8/fp8 等量化方式,选择GQA压缩率更可控,可以在保证效果的同时,选择更少的head num推理加速方案-GQA有了kv cache后,语音合成模型中AR模型也分为prefill阶段和decode阶段,合成10秒的音频需要AR模型生成500个token 同样的音频时长,如何减少token生成的数量?推理加速方案-BPE 在NLP中,采用类似BPE子词算法进行分词防止OOV问题 BPE首先将词分成单个字符,然后依次用另一个字符替换频率最高的一对
6、字符,直到循环次数结束推理加速方案-BPE10s音频需生成token数从500个token下降到约170个token 在语音合成大模型中,将BPE算法应用在推理加速上,一次AR模型decode出一个BPE的code,对应多个audio token 为了能直接使用NLP BPE,将audio token先映射到唯一的unicode 上,每一个字符对应一个audio code。推理加速方案-BPE方案二:在语音合成大模型中batch的两种方法方案一:推理加速方案-批处理推理使用方