《A1--范昊天--多模态大模型赋能可解释性画质评估任务.pdf》由会员分享,可在线阅读,更多相关《A1--范昊天--多模态大模型赋能可解释性画质评估任务.pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、多模态大模型赋能可解释性画质评估任务抖音画质大模型应用实践范昊天抖音集团范昊天抖音集团-算法工程师字节跳动抖音多媒体质量实验室算法技术负责人,负责多媒体质量相关方向的算法研发工作。硕士毕业于伦敦大学,曾就职于华为和创业公司,21年加入字节跳动,主导构建了抖音端到端多媒体质量分析体系,剪映、即梦生成式机评体系。多次在计算机顶级会议CVPR、ICCV举办多媒体质量相关workshop,发表期刊会议文章、中美专利数十篇。目录CONTENTS多媒体画质评估任务综述0102大模型重新定义下的可解释画质评估任务抖音画质大模型应用实践03未来展望04PART 01多媒体画质评估任务综述讲个故事小 A 是个热
2、爱生活的博主,平时喜欢在社交平台分享旅行日常,偶尔也会开直播带带自己喜欢的小众好物。小 A 在大理洱海边拍了一组绝美的日落照 橙红色的夕阳洒在湖面,远处的苍山轮廓清晰,连湖边随风飘动的芦苇穗都根根分明可等她在酒店把照片导入手机、在社交媒体发布后,刷新页面一看却傻了眼:原本清晰的湖面成了一片模糊的橙黄色色块,苍山的线条变得虚虚软软,连芦苇穗都糊成了一团“小毛球”。讲个故事小 A最近接了个小众毛衣品牌的带货合作,品牌方寄来的样品。白色的羊毛面料上有细腻的菱形提花,凑近看能清晰看到纱线交织的纹理,摸起来也柔软亲肤小A打开直播软件开启直播,特意选在光线充足的客厅直播,还准备了微距镜头,打算给毛衣纹理拍
3、个特写。可直播一开始,她就发现不对劲:镜头里的毛衣纹理像是被“磨平”了一样,原本清晰的菱形提花变得模糊不清,连面料的细腻感都打了折扣。讲个故事小 A听说最近AI生成模型很厉害,可以通过prompt随意编辑图像,并且可以让图像变清晰。于是她找到了之前在大理旅行拍摄的照片,想通过ai“修复”一下,把背景内容复原。结果图像主体变成了一只猫内容生产范式变革多媒体体验评估演进PGCUGCAIGC专业化内容生产用户生产内容AI生产内容质量高,内容有限质量参差,内容丰富生产效率高亮度对比度过欠曝噪声强度静态噪声动态噪声纹理细节边缘细节全剧细节饱和度色便程度基础画质多模态效果画质多媒体核心感知维度抖音端到端生
4、产消费链路画质、成本、性能的不可能三角画质损失比特率成本人偏好高质量的视觉效果更高质量的视觉效果往往带来更高的码率和成本投入需要通过增强算法、档位决策等手段,兼顾画质、成本、性能的平衡。UGC质量评估质量评估主客观评测主客观评测AIGC生成式多生成式多媒体质量评估媒体质量评估EvalMuse自研文生图评估体系大规模/细粒度高精度&高性能Seedream3.0 评估Seedream3.0 技术报告https:/arxiv.org/pdf/2504.11346PART 02大模型重新定义下的可解释画质评估任务传统IQA任务的局限性Score basedIQA可解释性差泛化能力一般输出结果单一精度一
5、般高度可解释的质量评估任务VLM 重新定义可解释性画质评估任务-单图替换文字单击此处输入你的正文,单击此处输入你的正文,单击此处输入你的正文,单击此处输入你的正文,单击此处输入你的正文单击此处输入你的正文,单击此处输入你的正文定位-Grounding感知-Perception描述-DescriptionVLM 重新定义可解释性画质评估任务-多图同场景下细节对比,归因分析数据获取数据获取ViDA-UGC数据获取CoT 评估数据构造更好的打分拟合策略让大模型学习分布而不是分数(NIMA、DEQASCore)大模型对整数分数的打分更加敏感(IOVQA)ViDA-UGC DatasetViDA-UGC
6、ViDAUGC的数据从多个UGC数据中进行采样,计算每张图像的low-level特征,并通过改进的MILP算法进行采样,保证各个特征维度的分布均匀数据质量及分布均衡控制所有数据由图像处理研究人员组成的专业团队进行审核与校对,每张图像会有超过五名标注员进行校准标注方式10+退化种类样本均衡采样策略三种IQA任务标签替换文字10k+精标图像ViDA-UGC Benchmark从ViDA-UGC中提取了476个样本作为Benchmark数据,以衡量VLM的单图画质感知能力。支持设数十种是失真类型,支持在质量描述、质量定位