Yolov1

2023/4/16 人工智能深度学习 Yolo Detection

背景

目前物体检测算法有以下三种：

1.传统物体检测算法，使用人工设计特征以及机器学习的分类方式，但这种算法提取到的特征局限性较大且学习速度有限；

2.结合候选框+深度学习分类法，这类Two-Stage方法解决了前者的问题，在精度上有很大突破，但在速度上很难达到实时检测的效果；

3.基于深度学习的回归方法，在速度上达到了实时级别的突破，本文使用YOLO就是属于One-stage，YOLO虽然在v1,v2版本准确率上有所欠缺，但到v5版本时准确率提高了很多。

Yolo简介

① YOLO的全称是you only look once，指只需要浏览一次就可以识别出图中的物体的类别和位置。
② YOLO是目标检测模型。目标检测是计算机视觉中比较简单的任务，用来在一张图篇中找到某些特定的物体，目标检测不仅要求我们识别这些物体的种类，同时要求我们标出这些物体的位置。
③ YOLO能实现图像或视频中物体的快速识别，在相同的识别类别范围和识别准确率条件下，YOLO识别速度最快。YOLO有多种模型

yolov1

算法流程：

1.将输入图像缩放到$448\times448\times3$大小

2.经过卷积网络backbone提取特征图

3.把提取到的特征图输入到两层全连接层，最终输出$7\times7\times30$大小的特征图

检测方法：

1.将输入图像划分成S*S的网格，如果物体中心落入某个网格内，就由该网格单元负责检测该目标。

2.每个网格预测B个边界框和它们的置信度，置信度是预测框和真实物体IOU和网格是否包含物体01值之积

3.每个边界框都包含5个预测值，x,y,w,h,confidence，分别代表中心坐标，宽高和IOU值，这里的坐标是相对于网格左上角的偏移量，宽高是相对于整幅图像的占比

架构设计

网络前面的卷积层用于从图像中提取特征，全连接层用于预测输出概率和坐标，共有24个卷积层，2个全连接层。

Training设计

使用ImageNet分类数据先做预训练，预训练使用的网络为Fig 3中的前20层卷积，再加一个average-pooling层和全连接层。预训练好以后，再加4层卷积和2层全连接(随机初始化权重)去训练检测任务，输入大小为448×448,预训练分类时使用的是224×224。最后一层会同时输出类别概率和box的坐标，利用图像的宽和高对box的宽和高做归一化，使其介于0和1之间。将box的x和y坐标参数化为特定网格单元位置的偏移量，因此它们也在0和1之间。对最后一层使用线性激活函数，其他层均使用leaky ReLU。

优化模型输出的sum-squared error，是因为它很容易优化，但并不完全符合最大化average precision的目标。它将定位误差与分类误差同等加权，这可能并不理想。此外，图像中会有很多网格不包含任何目标，这些网格的confidence score为0，这通常会overpower确实包含目标的网格的梯度。这会导致模型不稳定，出现发散。为了解决这个问题，增加了bounding box坐标预测的损失，减小了不包含目标的box的confidence预测的损失，使用参数 $\lambda_{coord}(=5),\lambda_{noobj}(=0.5)$来完成

sum-squared error对大box和小box也是同等加权的，一个好的误差度量应该能反映出small box中的小偏差比large box的小偏差更重要。为了解决这个问题，使用bounding box的宽和高的平方根来计算，而不是宽和高本身。YOLO对每个网格单元会预测多个bounding boxes。在训练时，我们希望对每个目标只有一个bounding box预测器对其负责。会分配一个预测器来负责预测一个目标，基于它的预测与ground truth有最高的IOU。

YOLOV1优点

①快。因为回归问题没有复杂的流程（pipeline）。
②可以基于整幅图像预测（看全貌而不是只看部分）。与基于滑动窗口和区域提议的技术不同，YOLO在训练和测试期间会看到整个图像，因此它隐式地编码有关类及其外观的上下文信息。因为能看到图像全貌，与 Fast R-CNN 相比，YOLO 预测背景出错的次数少了一半。
③学习到物体的通用表示（generalizable representations），泛化能力好。因此，当训练集和测试集类型不同时，YOLO 的表现比 DPM 和 R-CNN 好得多，应用于新领域也很少出现崩溃的情况。

YOLOV1缺点

① 空间限制：一个单元格只能预测两个框和一个类别，这种空间约束必然会限制预测的数量；
② 难扩展：模型根据数据预测边界框，很难将其推广到具有新的或不同寻常的宽高比或配置的对象。由于输出层为全连接层，因此在检测时，YOLO 训练模型只支持与训练图像相同的输入分辨率。
③ 网络损失不具体：无论边界框的大小都用损失函数近似为检测性能，物体 IOU 误差和小物体 IOU 误差对网络训练中 loss 贡献值接近，但对于大边界框来说，小损失影响不大，对于小边界框，小错误对 IOU 影响较大，从而降低了物体检测的定位准确性。

LOADING