1、 得物端智能封面推荐算法实践演讲人:刁 文 得物内容理解算法专家01 智能封面背景及重要性04 效果评测与应用02 NR-IQA前沿进展03 轻量化NR-IQA方案与模型部署目录Part 01智能封面背景及重要性智能封面背景及重要性智能封面背景-功能介绍功能定义:智能封面,运用AI技术,自动分析视频,精选最具代表性画面,提升内容第一印象。产品形态:在视频发布页为用户进行封面推荐,引导用户点击使用智能封面背景-业务需求 得物平台特殊性:电商购物 X 社交分享平台 社区推荐形式:双列流为主,封面质量影响CTR 内容生态需要:从创作源头提升平台内容画风 发布功能完善:提升用户体验,激发创作热情智能封
2、面背景-现状与挑战现 状智能封面技术逐渐成熟:AI模型可以根据画面质量、人物表情、主题内容等选取最佳的封面图。应用场景广泛:主流短视频平台已有应用技术融合程度高:视觉感知、场景理解和美学评价多个方向挑 战标准定义问题:“什么样的视频封面是好的?”视频多样性挑战:不同视频体裁、特殊场景端上处理效率:计算资源限制、处理实时性要求高Part 02NR-IQA前沿进展NR-IQA进展概况传统信号处理阶段2000-2010主要依赖图像信号处理和统计模型,代表性工作BIQI、NSS、DIIVINE深度学习CNN阶段2015-2019使用CNN网络实现图片特征提取和质量评估,相关工作有CNN-based N
3、R-IQA、DeepBIQ深度学习ViT阶段20192023 NR-IQA 方法逐渐和大规模预训练模型结合,最典型的代表是CLIP-IQA机器学习阶段2010-2015机器学习方法开始被引入到 NR-IQA 中,利用特征编码到高维映射实现评估,代表工作有CORNIA、BRISQUE、NIQE多模态大模型阶段2023至今得益于多模态大模型的快速发展,NR-IAQ也有了长足的进步,使用文本生成形式进行图片质量刻画,主要有Q-align、Q-InsightNR-IQA:No-Reference Image Quality Assessment 无参图片质量评估基于ViT结构的IQAMUSIQMANI
4、QAMulti-demension Attention Network提出了一种多维度注意力网络模型,专门用于无参考图像质量评估。该模型目的在于提升对GAN失真图像的质量预测性能。核心点:跨通道和空间维度的注意力机制,增强全局和局部交互;双分支结构。Multi-scale Image Quality Transformer 引入transformer做多尺度的图像质量评估,实现处理具有不同宽高比和分辨率的全尺寸图像,提取多尺度特征,从而更好地模拟人类视觉系统对图像质量的感知。基于CLIP结构的IQALIQELIQE:Language-Image Quality Evaluator通过视觉-语言
5、对应关系从多任务学习的角度进行优化图片质量评估。CLIP-IQACLIP-IQA:引入CLIP图文对比预训练模型来评估图像的视觉感知,通过构造 prompt对来进行模型训练基于多模态大模型的IQAQ-alignQ-align:引入多模态大模型,使用图文输入让大语言模型生成图片质量描述通过离散文本定义的级别(例如好、差等)而不是直接的分数(例如3.45、1.77)来指导训练LLM模型结构训练过程轻量化网络-IQALAR-IQA:轻量级的NR-IQA模型 基于MobileNetV3搭建的一种轻量化模型,主要为了解决现有模型在实际应用中的局限性,特别是对于资源受限的移动设备上的实时图像质量评估任务。
6、核心点:双分支架构、多色空间训练、KAN结构代替MLPPart 03轻量化NR-IQA方案与模型搭建大模型蒸馏的轻量化IQA 多模态大模型领域内数据SFT 轻量化模型预训练 大模型知识蒸馏 模型剪枝与量化压缩 Loss优化模型大小和性能:实际部署模型size在20M,单张图片处理速度小于50ms训练数据构造与清洗-多维度评估人物主体出镜清晰度色彩丰富度美观度商品完整性背景环境轻量化模型端上部署-MNN模型工程:pytorch模型固化-ONNX 序列化 -MNN文件 ONNX框