博客
关于我
CVPR 2025 | 突破注意力机制!vHeat:基于热传导的视觉表征模型
阅读量:801 次
发布时间:2023-04-05

本文共 803 字,大约阅读时间需要 2 分钟。

基于热传导的视觉表征模型 vHeat


中国科学院大学与鹏城国家实验室提出了一种全新的视觉表征模型 vHeat,突破了传统视觉模型中 attention 机制的计算复杂度瓶颈。vHeat 以物理学中的热传导原理为基础,将图片特征块视为"热源",通过预测热传导率提取图像特征。

与传统的 attention 机制相比,vHeat 在计算复杂度(1.5次方)、全局感受野以及物理可解释性方面均有显著优势。vHeat-base 模型在高分辨率图像输入时,推理吞吐量是 Swin-base 模型的3倍,GPU 显存占用仅为 Swin 的1/4,计算复杂度也低于 Swin 的3/4。在 ImageNet-1K 数据集上的分类任务中,vHeat-T 达到了82.2%的准确率,显著优于 Swin-T、Vim-S 等主流模型。

vHeat 的核心创新在于其独特的热传导算子 Heat Conduction Operator (HCO)。该算子基于物理热传导方程,通过离散化形式的热传导通解来模拟视觉语义的空间传播。HCO 不仅降低了计算复杂度,还通过频率值编码(Frequency Value Embeddings, FVEs)实现了非均匀、自适应的传导过程。

在下游任务中,vHeat 在目标检测和语义分割等任务上也展现了优异性能。在 COCO 数据集上,vHeat 的 mAP 进一步领先于 Swin 和 ConvNeXt 等模型。在 ADE20K 数据集上,vHeat 的 mIoU 结果同样优于对比模型。

vHeat 的设计理念源于对 CNN 和 ViT 中卷积核算子和自注意力算子的物理解释。通过建立视觉语义传播与热传导的关联,vHeat 不仅实现了更高效的特征提取,还赋予了视觉模型更强的物理可解释性。


欢迎加入小白学视觉交流群,和同行一起探讨视觉技术与AI前沿动态。扫描下方二维码或回复相关关键词即可加入。

转载地址:http://zxrfk.baihongyu.com/

你可能感兴趣的文章
MySQL5.6的Linux安装shell脚本之二进制安装(一)
查看>>
MySQL5.6的zip包安装教程
查看>>
mysql5.7 for windows_MySQL 5.7 for Windows 解压缩版配置安装
查看>>
Webpack 基本环境搭建
查看>>
mysql5.7 安装版 表不能输入汉字解决方案
查看>>
MySQL5.7.18主从复制搭建(一主一从)
查看>>
MySQL5.7.19-win64安装启动
查看>>
mysql5.7.19安装图解_mysql5.7.19 winx64解压缩版安装配置教程
查看>>
MySQL5.7.37windows解压版的安装使用
查看>>
mysql5.7免费下载地址
查看>>
mysql5.7命令总结
查看>>
mysql5.7安装
查看>>
mysql5.7性能调优my.ini
查看>>
MySQL5.7新增Performance Schema表
查看>>
Mysql5.7深入学习 1.MySQL 5.7 中的新增功能
查看>>
Webpack 之 basic chunk graph
查看>>
Mysql5.7版本单机版my.cnf配置文件
查看>>
mysql5.7的安装和Navicat的安装
查看>>
mysql5.7示例数据库_Linux MySQL5.7多实例数据库配置
查看>>
Mysql8 数据库安装及主从配置 | Spring Cloud 2
查看>>