1、微信图片翻译实践牛力强 腾讯微信 高级研究员|01微信翻译介绍02微信图片翻译目录CONTENT|03图片内容理解04图文内容生成|01微信翻译介绍 微信翻译及应用场景微信翻译:微信AI团队打造翻译服务|微信翻译12亿微信用户都在用微信翻译:微信AI团队打造翻译服务|微信翻译12亿微信用户都在用微信翻译:微信AI团队打造翻译服务|微信翻译12亿微信用户都在用支持18种语言(60+方向)日均翻译百亿字符的多语言机器翻译引擎微信翻译应用场景:聊天、朋友圈、搜一搜|微信翻译12亿微信用户都在用微信翻译应用场景:扫一扫、网页、边写边译|微信翻译12亿微信用户都在用微信翻译应用场景:QQ音乐、邮箱、企业
2、微信|微信翻译12亿微信用户都在用|02微信图片翻译 图片翻译引擎构建微信图片翻译|微信翻译12亿微信用户都在用 长按图片、点击翻译、得到译图-目标语言默认为系统设置语言 应用场景-扫一扫、聊天-朋友圈、公众号文章微信图片翻译|微信翻译12亿微信用户都在用 长按图片、点击翻译、得到译图-目标语言默认为系统设置语言 应用场景-扫一扫、聊天-朋友圈、公众号文章微信图片翻译面临的挑战|微信翻译12亿微信用户都在用 图片复杂多样-英中日韩泰等10+种语言-文字内容多样-排版结构复杂微信图片翻译面临的挑战|微信翻译12亿微信用户都在用 图片复杂多样-英中日韩泰等10+种语言-文字内容多样-排版结构复杂
3、追求用户体验-内容完整&翻译准确-译图忠实于原图-翻译速度快图片翻译如何建模?|微信翻译12亿微信用户都在用?原图译图y图片翻译如何建模?|微信翻译12亿微信用户都在用生成模型:g(y|)?原图译图y图片翻译如何建模?|微信翻译12亿微信用户都在用优点只需一个end2end模型生成模型:g(y|)难点g高维、多模态、分布未知缺少end2end数据,训练难?原图译图y图片翻译如何建模?|微信翻译12亿微信用户都在用优点只需一个end2end模型生成模型:g(y|)难点g高维、多模态、分布未知缺少end2end数据,训练难?变分模型:q y p(|)分两步:encoder:p(|)和 decode
4、r:q y 原图译图y图片翻译如何建模?|微信翻译12亿微信用户都在用优点只需一个end2end模型生成模型:g(y|)难点g高维、多模态、分布未知缺少end2end数据,训练难?变分模型:q y p(|)分两步:encoder:p(|)和 decoder:q y 变量:zp(|)q y 变量z 是 原图 的内容理解如语种、文字、段落、颜色等原图译图y图片翻译如何建模?|微信翻译12亿微信用户都在用优点只需一个end2end模型生成模型:g(y|)难点g高维、多模态、分布未知缺少end2end数据,训练难?p(|):图片内容理解变分模型:q y p(|)分两步:encoder:p(|)和 de
5、coder:q y q y :图片内容生成变量:zp(|)q y 变量z 是 原图 的内容理解如语种、文字、段落、颜色等原图译图y图片翻译引擎|微信翻译12亿微信用户都在用原图图片内容理解中间结果图文内容生成译图图片翻译引擎|微信翻译12亿微信用户都在用原图图片内容理解中间结果图文内容生成译图语种识别行文字块字符串文字识别中英日韩泰等段落划分文字块分布段落结构图片翻译引擎|微信翻译12亿微信用户都在用原图图片内容理解中间结果图文内容生成译图语种识别行文字块字符串文字识别中英日韩泰等段落划分文字块分布段落结构译文生成译图生成图片翻译引擎|微信翻译12亿微信用户都在用原图图片内容理解图文内容生成中
6、间结果译图图片分类ViT段落框检测扩展DBNet段落矫正BERT语种识别文字识别段落划分段落文本翻译NMT引擎图片文字擦除扩散修复译文生成译图生成文本检测识别微信OCR|03图片内容理解 语种识别 文字识别 段落划分图片内容理解(1)|微信翻译12亿微信用户都在用语种识别原图图片分类ViT中、英、日、韩、泰等 分类精度高(10+类,影响整体效果)推理速度快(前置模块影响后续处理)覆盖长尾语种(日、泰、阿拉伯语等)图片语种识别|微信翻译12亿微信用户都在用SOTA:Vision Transformer(ViT)ViT+大数据训练 超越 Inductive bias的CNN图片语种识别|微信翻译1