CLIPer
2026/6/5 15:09:33 网站建设 项目流程

CLIPer

动机

提示CLIP的关键在于空间特征表示的改进上。
可以利用早期的特征和注意力来改进,而不是依赖最后一层注意力或者其他VFM模型。

扩散模型对于局部细节的空间关系表示比较好,可以用于进行语义分割。

方法

早期层融合

就是把早期层的注意力图进行平均化处理,替代最后一层的注意力图
最后一层的FFN和残差连接进行移除


作者还加入了一个中间特征融合不止限于中间注意力图融合

细粒度特征补偿

扩散模型的注意力图的空间表示能力强,可以用于进一步修正和锐化最终得到的类别向量

作者将扩散模型得到的注意力中多个头拆分出来,进行矩阵乘法,实现跨 head 的注意力融合


消融实验发现使用矩阵乘法效果最好。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询