博客
关于我
CVPR 2025 | 突破注意力机制!vHeat:基于热传导的视觉表征模型
阅读量:801 次
发布时间:2023-04-05

本文共 803 字,大约阅读时间需要 2 分钟。

基于热传导的视觉表征模型 vHeat


中国科学院大学与鹏城国家实验室提出了一种全新的视觉表征模型 vHeat,突破了传统视觉模型中 attention 机制的计算复杂度瓶颈。vHeat 以物理学中的热传导原理为基础,将图片特征块视为"热源",通过预测热传导率提取图像特征。

与传统的 attention 机制相比,vHeat 在计算复杂度(1.5次方)、全局感受野以及物理可解释性方面均有显著优势。vHeat-base 模型在高分辨率图像输入时,推理吞吐量是 Swin-base 模型的3倍,GPU 显存占用仅为 Swin 的1/4,计算复杂度也低于 Swin 的3/4。在 ImageNet-1K 数据集上的分类任务中,vHeat-T 达到了82.2%的准确率,显著优于 Swin-T、Vim-S 等主流模型。

vHeat 的核心创新在于其独特的热传导算子 Heat Conduction Operator (HCO)。该算子基于物理热传导方程,通过离散化形式的热传导通解来模拟视觉语义的空间传播。HCO 不仅降低了计算复杂度,还通过频率值编码(Frequency Value Embeddings, FVEs)实现了非均匀、自适应的传导过程。

在下游任务中,vHeat 在目标检测和语义分割等任务上也展现了优异性能。在 COCO 数据集上,vHeat 的 mAP 进一步领先于 Swin 和 ConvNeXt 等模型。在 ADE20K 数据集上,vHeat 的 mIoU 结果同样优于对比模型。

vHeat 的设计理念源于对 CNN 和 ViT 中卷积核算子和自注意力算子的物理解释。通过建立视觉语义传播与热传导的关联,vHeat 不仅实现了更高效的特征提取,还赋予了视觉模型更强的物理可解释性。


欢迎加入小白学视觉交流群,和同行一起探讨视觉技术与AI前沿动态。扫描下方二维码或回复相关关键词即可加入。

转载地址:http://zxrfk.baihongyu.com/

你可能感兴趣的文章
Mysql 批量修改四种方式效率对比(一)
查看>>
Mysql 报错 Field 'id' doesn't have a default value
查看>>
MySQL 报错:Duplicate entry 'xxx' for key 'UNIQ_XXXX'
查看>>
Mysql 拼接多个字段作为查询条件查询方法
查看>>
mysql 排序id_mysql如何按特定id排序
查看>>
Mysql 提示:Communication link failure
查看>>
mysql 插入是否成功_PDO mysql:如何知道插入是否成功
查看>>
Mysql 数据库InnoDB存储引擎中主要组件的刷新清理条件:脏页、RedoLog重做日志、Insert Buffer或ChangeBuffer、Undo Log
查看>>
mysql 数据库中 count(*),count(1),count(列名)区别和效率问题
查看>>
mysql 数据库备份及ibdata1的瘦身
查看>>
MySQL 数据库备份种类以及常用备份工具汇总
查看>>
mysql 数据库存储引擎怎么选择?快来看看性能测试吧
查看>>
MySQL 数据库操作指南:学习如何使用 Python 进行增删改查操作
查看>>
MySQL 数据库的高可用性分析
查看>>
MySQL 数据库设计总结
查看>>
Mysql 数据库重置ID排序
查看>>
Mysql 数据类型一日期
查看>>
MySQL 数据类型和属性
查看>>
mysql 敲错命令 想取消怎么办?
查看>>
Mysql 整形列的字节与存储范围
查看>>