Yolov2
Yolo的发展历程 (二)
加载过慢请开启缓存 浏览器默认开启
Transformer在NLP领域应用十分广泛,但是在CV领域的应用存在很多困难,这源自于两类任务的本质区别,例如CV里物体(visual entities/visual elements)尺寸变化很大,模型需要处理不同尺度的同类物体(尤其是在目标检测任务中),而在NLP领域,把word tokens作为基本要素(basic elements),并不存在以上问题。同时图片分辨率高,自注意力如果逐像素计算成本过高(尤其是对像素级分类任务来说)。ViT做图像分类很强,但是不适合dense vision tasks,且ViT和输入图像大小是平方复杂度关系,计算复杂度过高。本文提出Swin Transformer,一个使用移动窗口(Shifted window),具有层级设计的(hierarchical)多功能主干网络(general-proposed backbone)
在一个统一的框架中识别干净的标签且有效的整合光场线索之间的关系。将学习描述为光场内特征融合流和场景间相关流的联合优化,以生成预测,首先引入一个像素遗忘引导融合模块,以相互增强光场特征,并利用迭代过程中的像素一致性来识别噪声像素,再引入跨场景噪声惩罚损失,以更好地反映训练数据的潜在结构,并使学习对噪声保持不变。
缺乏显著对象的边界细节和语义上下文是低分辨率SOD数据集的一大弊端,本文设计了一个端到端的学习框架,称为DRFNet,使用一个共享特征提取器和两个有效的细化头构成。通过解耦细节和上下文信息,一个细化头采用全局感知和特征金字塔,在不增加太多计算负担的情况下,提升空间细节信息,从而缩小高级语义和低级细节之间的差距,另一个细化头采用混合扩张卷积块和分组上采样,这在提取上下文信息方面非常有效,基于双重细化,使得实现扩大感受野并从高分辨率图像中获取更多的判别特征。
提出了一种金字塔型特征收缩网络(PFSNet) ,其目的是将相邻的特征节点按照层层收缩的方式进行聚合,从而使聚合后的特征融合有效的细节和语义,丢弃干扰信息。特别地,提出了一种金字塔收缩译码器(PSD) ,以渐近的方式分层聚合相邻特征。此外,我们提出了一个相邻融合模块(AFM)来进行相邻特征之间的空间增强,以动态加权特征和自适应融合适当的信息。此外,利用基于主干提取特征的尺度感知富集模块(SEM)获取丰富的尺度信息,生成具有扩张卷积的不同初始特征。