本文共 803 字,大约阅读时间需要 2 分钟。
基于热传导的视觉表征模型 vHeat
中国科学院大学与鹏城国家实验室提出了一种全新的视觉表征模型 vHeat,突破了传统视觉模型中 attention 机制的计算复杂度瓶颈。vHeat 以物理学中的热传导原理为基础,将图片特征块视为"热源",通过预测热传导率提取图像特征。
与传统的 attention 机制相比,vHeat 在计算复杂度(1.5次方)、全局感受野以及物理可解释性方面均有显著优势。vHeat-base 模型在高分辨率图像输入时,推理吞吐量是 Swin-base 模型的3倍,GPU 显存占用仅为 Swin 的1/4,计算复杂度也低于 Swin 的3/4。在 ImageNet-1K 数据集上的分类任务中,vHeat-T 达到了82.2%的准确率,显著优于 Swin-T、Vim-S 等主流模型。
vHeat 的核心创新在于其独特的热传导算子 Heat Conduction Operator (HCO)。该算子基于物理热传导方程,通过离散化形式的热传导通解来模拟视觉语义的空间传播。HCO 不仅降低了计算复杂度,还通过频率值编码(Frequency Value Embeddings, FVEs)实现了非均匀、自适应的传导过程。
在下游任务中,vHeat 在目标检测和语义分割等任务上也展现了优异性能。在 COCO 数据集上,vHeat 的 mAP 进一步领先于 Swin 和 ConvNeXt 等模型。在 ADE20K 数据集上,vHeat 的 mIoU 结果同样优于对比模型。
vHeat 的设计理念源于对 CNN 和 ViT 中卷积核算子和自注意力算子的物理解释。通过建立视觉语义传播与热传导的关联,vHeat 不仅实现了更高效的特征提取,还赋予了视觉模型更强的物理可解释性。
欢迎加入小白学视觉交流群,和同行一起探讨视觉技术与AI前沿动态。扫描下方二维码或回复相关关键词即可加入。
转载地址:http://zxrfk.baihongyu.com/