报告预览

A1--范昊天--多模态大模型赋能可解释性画质评估任务.pdf

编号：930122

PDF 39页 5.84MB 下载积分：VIP专享

下载报告请您先登录！

A1--范昊天--多模态大模型赋能可解释性画质评估任务.pdf

1、多模态大模型赋能可解释性画质评估任务抖音画质大模型应用实践范昊天抖音集团范昊天抖音集团-算法工程师字节跳动抖音多媒体质量实验室算法技术负责人，负责多媒体质量相关方向的算法研发工作。硕士毕业于伦敦大学，曾就职于华为和创业公司，21年加入字节跳动，主导构建了抖音端到端多媒体质量分析体系，剪映、即梦生成式机评体系。多次在计算机顶级会议CVPR、ICCV举办多媒体质量相关workshop，发表期刊会议文章、中美专利数十篇。目录CONTENTS多媒体画质评估任务综述0102大模型重新定义下的可解释画质评估任务抖音画质大模型应用实践03未来展望04PART 01多媒体画质评估任务综述讲个故事小 A 是个热

2、爱生活的博主，平时喜欢在社交平台分享旅行日常，偶尔也会开直播带带自己喜欢的小众好物。小 A 在大理洱海边拍了一组绝美的日落照橙红色的夕阳洒在湖面，远处的苍山轮廓清晰，连湖边随风飘动的芦苇穗都根根分明可等她在酒店把照片导入手机、在社交媒体发布后，刷新页面一看却傻了眼：原本清晰的湖面成了一片模糊的橙黄色色块，苍山的线条变得虚虚软软，连芦苇穗都糊成了一团“小毛球”。讲个故事小 A最近接了个小众毛衣品牌的带货合作，品牌方寄来的样品。白色的羊毛面料上有细腻的菱形提花，凑近看能清晰看到纱线交织的纹理，摸起来也柔软亲肤小A打开直播软件开启直播，特意选在光线充足的客厅直播，还准备了微距镜头，打算给毛衣纹理拍

3、个特写。可直播一开始，她就发现不对劲：镜头里的毛衣纹理像是被“磨平”了一样，原本清晰的菱形提花变得模糊不清，连面料的细腻感都打了折扣。讲个故事小 A听说最近AI生成模型很厉害，可以通过prompt随意编辑图像，并且可以让图像变清晰。于是她找到了之前在大理旅行拍摄的照片，想通过ai“修复”一下，把背景内容复原。结果图像主体变成了一只猫内容生产范式变革多媒体体验评估演进PGCUGCAIGC专业化内容生产用户生产内容AI生产内容质量高，内容有限质量参差，内容丰富生产效率高亮度对比度过欠曝噪声强度静态噪声动态噪声纹理细节边缘细节全剧细节饱和度色便程度基础画质多模态效果画质多媒体核心感知维度抖音端到端生

4、产消费链路画质、成本、性能的不可能三角画质损失比特率成本人偏好高质量的视觉效果更高质量的视觉效果往往带来更高的码率和成本投入需要通过增强算法、档位决策等手段，兼顾画质、成本、性能的平衡。UGC质量评估质量评估主客观评测主客观评测AIGC生成式多生成式多媒体质量评估媒体质量评估EvalMuse自研文生图评估体系大规模/细粒度高精度&高性能Seedream3.0 评估Seedream3.0 技术报告https:/arxiv.org/pdf/2504.11346PART 02大模型重新定义下的可解释画质评估任务传统IQA任务的局限性Score basedIQA可解释性差泛化能力一般输出结果单一精度一

5、般高度可解释的质量评估任务VLM 重新定义可解释性画质评估任务-单图替换文字单击此处输入你的正文，单击此处输入你的正文，单击此处输入你的正文，单击此处输入你的正文，单击此处输入你的正文单击此处输入你的正文，单击此处输入你的正文定位-Grounding感知-Perception描述-DescriptionVLM 重新定义可解释性画质评估任务-多图同场景下细节对比，归因分析数据获取数据获取ViDA-UGC数据获取CoT 评估数据构造更好的打分拟合策略让大模型学习分布而不是分数（NIMA、DEQASCore）大模型对整数分数的打分更加敏感（IOVQA）ViDA-UGC DatasetViDA-UGC

6、ViDAUGC的数据从多个UGC数据中进行采样，计算每张图像的low-level特征，并通过改进的MILP算法进行采样，保证各个特征维度的分布均匀数据质量及分布均衡控制所有数据由图像处理研究人员组成的专业团队进行审核与校对，每张图像会有超过五名标注员进行校准标注方式10+退化种类样本均衡采样策略三种IQA任务标签替换文字10k+精标图像ViDA-UGC Benchmark从ViDA-UGC中提取了476个样本作为Benchmark数据，以衡量VLM的单图画质感知能力。支持设数十种是失真类型，支持在质量描述、质量定位

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（A1--范昊天--多模态大模型赋能可解释性画质评估任务.pdf）为本站（分析师）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。