近日,一年一度的计算机视觉学术盛宴CVPR(IEEE Conference on Computer Vision and Pattern Recognition)刚刚落下帷幕。在本届CVPR大会中,为了促进机器学习与计算机视觉技术在图像和视频压缩领域的发展,由Google、Apple、Netflix等公司联合举办的第五届CVPR-CLIC2022(The 5th Workshop and Challenge on Learned Image Compression)竞赛吸引了全球大量的队伍参与,其中也包括阿里巴巴、字节跳动、商汤等在业内处于领先地位的科技公司及清华、北大、中科大等顶尖高校。
在历经两个多月的激烈角逐后,通信工程学院何刚老师带领团队Kingslayer(团队成员:王勇、徐莉、张文莉)和北京快手科技有限公司合作在图像质量感知赛道(Perceptual Quality Track)中获得全球第三(季军),高校排名第二的优异成绩。何刚老师是通信工程学院图像传输与处理研究所(图像所)骨干成员,图像所隶属于ISN国家重点实验室,负责人为李云松教授。
团队在CVPR-CLIC2022竞赛全球第三的获奖证书
团队发表于CVPR2022 Workshop的FFDN质量评价论文相关信息
当今图像与视频成为人们获取信息的最主要方式,然而图像视频从采集、压缩、存储到传输,都可能发生失真,从而导致接收到的视觉信息丢失,因此评价图像视频的质量好坏对图像恢复、图像检索、图像质量监控系统等各个方面有着重要的作用及广泛的应用。同时,构建更加准确高效的客观质量评价模型代替较为费时费力的主观质量评价已成为研究与发展的趋势。在今年举办的CVPR-CLIC2022图像压缩竞赛中,图像质量感知赛道旨在让参赛选手设计更加准确高效的有参考质量评价模型(FR-IQA)来对压缩受损的图像进行客观质量评价。但由于图像压缩受损的多种算法未知,且大多数不同失真图与参考图十分相似导致差异化不明显,甚至包含很多人眼主观难以给出评价的失真图像。因此对搭建有参考质量评价模型提出较高的挑战难度。
针对这一具有挑战的任务,何刚老师带领团队Kingslayer设计了一个聚焦特征差异化网络的质量评价模型(Focused Feature Differentiation Network for Image Quality Assessment,FFDN),模型针对失真图与参考图相似导致差异化不明显的情况使用通道注意力聚焦失真图与参考图的差异化特征图。同时,使用多尺度特征融合,在不同感受野下进行特征融合,使聚焦后的差异化特征得到最大化利用。此外,针对单一评价指标在质量评价中存在的部分局限性,使用多评价指标融合的方式来提升评价效果。最终在比赛测试集上准确率为79.6%,获得了第三名的优异成绩,且前三名差距较小,准确率均高于79%,大幅超出第四名。在其他评价指标ELO SRCC和ELO PLCC上得分分别为0.95和0.96,均位于第三名。ELO SRCC和ELO PLCC指标用于反映模型打分与人类主观打分的相近程度,从指标结果来看,FFDN质量评价模型很大程度上接近人眼主观评价水平。
提出的FFDN质量评价网络的模型结构图
央广网:App多个模块基于鸿蒙优化功能
央广网:App多个模块基于鸿蒙优化功能作为新闻领域的头部应用...(681 )人阅读时间:2023-12-20建设银行:鸿蒙原生应用核心功能将于年前完成
建设银行:鸿蒙原生应用核心功能将于年前完成作为金融行业巨头的...(937 )人阅读时间:2023-12-20小红书:全面优化鸿蒙原生应用Beta版体验
小红书:全面优化鸿蒙原生应用Beta版体验小红书早在今年8月...(575 )人阅读时间:2023-12-20清华大学与香港科技大学联合主办2023人工智能合作与治理国
12月8日,由清华大学、香港科技大学联合主办的2023人工智...(547 )人阅读时间:2023-12-20