模型解析丨YOLO系列模型解析-YOLO V1

YOLO提供了另一种更为直接的思路：直接在输出层回归bounding box的位置和bounding box所属的类别(整张图作为网络的输入，把 Object Detection 的问题转化成一个 Regression 问题)。

网络结构：

网络结构借鉴了 GoogLeNet 。24个卷积层，2个全链接层。（用1×1 reduction layers 紧跟 3×3 convolutional layers 取代Goolenet的 inception modules ）。

预训练分类网络：

在 ImageNet 1000-class competition dataset上预训练一个分类网络，这个网络是图中的前20个卷机网络+average-pooling layer+ fully connected layer （此时网络输入是224×224）。

训练检测网络：

转换模型去执行检测任务，《Object detection networks on convolutional feature maps》提到说在预训练网络中增加卷积和全链接层可以改善性能。在他们例子基础上添加4个卷积层和2个全链接层，随机初始化权重。检测要求细粒度的视觉信息，所以把网络输入也又224×224变成448×448。

YOLO v1算法思想：

作者在YOLO算法中把物体检测（object detection）问题处理成回归问题，用一个卷积神经网络结构就可以从输入图像直接预测bounding box和类别概率。

算法首先把输入图像划分成S×S的格子，然后对每个格子都预测B个bounding boxes，每个bounding box都包含5个预测值：x,y,w,h和confidence。

x，y就是bounding box的中心坐标，与grid cell对齐（即相对于当前grid cell的偏移值），使得范围变成0到1；

w，h进行归一化（分别除以图像的w和h，这样最后的w和h就在0到1范围）。

confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息：

换句话说，如果ground truth落在这个grid cell里，那么Pr（Object）就取1，否则就是0，IOU就是bounding box与实际的groud truth之间的交并比。所以confidence就是这两者的乘积。

在yolov1中作者将一幅图片分成7x7个网格(grid cell)，由网络的最后一层输出7×7×30的tensor，也就是说每个格子输出1×1×30的tensor。30里面包括了2个bound ing box的x，y，w，h，confidengce以及针对格子而言的20个类别概率，输出就是 7x7x(5x2 + 20) 。

(通用公式：SxS个网格，每个网格要预测B个bounding box还要预测C个categories，输出就是S x S x (5×B+C)的一个tensor。注意：class信息是针对每个网格的，confidence信息是针对每个bounding box的）

所以如何判断一个grid cell中是否包含object呢？答案是：如果一个object的ground truth的中心点坐标在一个grid cell中，那么这个grid cell就是包含这个object，也就是说这个object的预测就由该grid cell负责。

每个grid cell都预测C个类别概率，表示一个grid cell在包含object的条件下属于某个类别的概率。

损失函数设计：

第三、四行表示bounding box的confidence损失，就像前面所说的，分成grid cell包含与不包含object两种情况。这里注意下因为每个grid cell包含两个bounding box，所以只有当ground truth 和该网格中的某个bounding box的IOU值最大的时候，才计算这项。

第五行表示预测类别的误差，注意前面的系数只有在grid cell包含object的时候才为1。

测试：

等式左边第一项就是每个网格预测的类别信息，第二三项就是每个bounding box预测的confidence。这个乘积即encode了预测的box属于某一类的概率，也有该box准确度的信息。

对每一个网格的每一个bbox执行同样操作：7x7x2 = 98 bbox （每个bbox既有对应的class信息又有坐标信息）

得到98bbox的信息后，首先对阈值小于0.2的score清零，然后重新排序，最后再用NMS算法去掉重复率较大的bounding box（NMS:针对某一类别，选择得分最大的bounding box，然后计算它和其它bounding box的IOU值，如果IOU大于0.5，说明重复率较大，该得分设为0，如果不大于0.5，则不改。

这样一轮后，再选择剩下的score里面最大的那个bounding box，然后计算该bounding box和其它bounding box的IOU，重复以上过程直到最后）。最后每个bounding box的20个score取最大的score，如果这个score大于0，那么这个bounding box就是这个socre对应的类别（矩阵的行），如果小于0，说明这个bounding box里面没有物体，跳过即可。

缺陷：

YOLO对相互靠的很近的物体（挨在一起且中点都落在同一个格子上的情况），还有很小的群体检测效果不好，这是因为一个网格中只预测了两个框，并且只属于一类。

测试图像中，当同一类物体出现的不常见的长宽比和其他情况时泛化能力偏弱。

由于损失函数的问题，定位误差是影响检测效果的主要原因，尤其是大小物体的处理上，还有待加强。

举报/反馈

宠物知识科普

6574获赞 9860粉丝

专注于宠物行业，分享宠物知识和知识科普！

科技领域爱好者

关注