APRIL实验室3篇论文被CVPR 2024录用

APRIL实验室3篇论文被CVPR 2024录用

13 Mar 2024

近日,计算机视觉和模式识别领域的顶级会议 CVPR 2024 公布了论文接收结果。APRIL实验室硕士生侯晓军、项靖阳及曾仙芳博士(已毕业)的3篇论文被录用。恭喜他们实现新的突破!

据悉,此次CVPR共收到了近2万篇投稿,再次创下了历史新高,也反映了计算机视觉领域的研究热度在不断攀升。入选CVPR的论文需要经过严格的评审流程,确保其创新性和实用性达到国际领先水平。以下为入选论文概览:

一、SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object Tracking(基于自蒸馏对称适配学习的多模态视觉目标跟踪)

现有多模态视觉目标跟踪器受到数据量限制而缺乏通用表示,且其鲁棒性受限于RGB模态的主导地位。本文提出一种名为SDSTrack的对称式多模态视觉目标跟踪框架,引入轻量级的适应器,在多模态数据上高效微调预训练跟踪器,并设计互补掩膜块蒸馏策略,提高跟踪器在复杂环境中的鲁棒性。实验表明,SDSTrack在多种模态组合中表现优异,尤其在极端条件下表现出色。

二、MaxQ: Multi-Axis Query for N:M Sparsity Network(MaxQ:针对N:M稀疏网络的多轴查询方法)

现有的 N:M 稀疏性方法没有区分块间权重的相对重要性,导致重要权重不受重视。此外,它们直接将 N:M 稀疏性应用于整个网络。在本文中,我们提出了一种高效的多轴查询方法(称为 MaxQ)来解决这些问题。在训练过程中,MaxQ 采用动态方法生成软 N:M 掩码,同时考虑多个轴的权重重要性。这种方法增强了权重的重要性,确保了更有效的更新。同时,采用逐渐增加 N:M 权重块比例的稀疏性策略,使网络逐渐从稀疏化引起的损失中恢复。在推理过程中,N:M 软掩码可以作为常数预先计算,并折叠入权重,不会对稀疏模式造成任何扭曲,也不会产生额外的计算开销。大量实验证明,在各种计算机视觉任务(包括图像分类、物体检测和实例分割)中,MaxQ 在不同的 CNN 模型中实现了一致的效果提升。

三、Paint3D: Paint Anything 3D with Lighting-less Texture Diffusion Models(Paint3D: 使用无光照纹理扩散模型绘制任意3D物体)

我们推出 Paint3D,这是一种新颖的从粗到细的生成框架,能够为基于文本或图像输入的无纹理 3D 网格生成高分辨率、无光照且多样化的 2K UV 纹理图。解决的关键挑战是在不嵌入照明信息的情况下生成高质量纹理,这允许在现代图形管道中重新照亮或重新编辑纹理。为了实现这一目标,我们的方法首先利用预先训练的深度感知 2D 扩散模型来生成视图条件图像并执行多视图纹理融合,从而生成初始粗糙纹理图。然而,由于 2D 模型无法完全表示 3D 形状并禁用照明效果,因此粗糙纹理贴图会表现出不完整的区域和照明伪影。为了解决这个问题,我们训练了单独的 UV 修复和 UVHD 扩散模型,专门用于不完整区域的形状感知细化和照明伪影的去除。通过这种从粗到细的过程,Paint3D 可以生成高质量的 2K UV 纹理,在无光照的情况下保持语义一致性,从而显着推进 3D 对象纹理化的最先进技术。