目标检测算法的发展史如下:
R-CNN 是利用深度学习进行目标检测的开山之作。作者Ross Girshick多次 在PASCAL VOC的目标检测竞赛中折桂,曾在2010年带领团队获得终身成就奖。
优点:
缺点:
Fast R-CNN是作者Ross Girshick继R-CNN后的又一力作。同样使用VGG16作为网络 的backbone,与R-CNN相比训练时间快9倍,测试推理时间快213倍,准确率从 62%提升至66%(再在ascal VOC数据集上)。
算法流程:
优点:
缺点:
应用场景:
Faster R-CNN是作者Ross Girshick继Fast R-CNN后的又一力作。同样使用VGG16作 为网络的backbone,推理速度在GPU上达到5fps(包括候选区域的生成),准确率 也有进一步的提升。在2015年的ILSVRC以及COCO竞赛中获得多个项目的第一名。
算法流程:
优点:
缺点:
应用场景:
基于 Faster R-CNN 架构,增加了实例分割功能。
backbone:ResNet50/vgg16 + FPN
使用FPN分别预测的特征层合并输出一个预测特征层。
在 Faster R-CNN 的基础上增加了并行的 mask 分支,预测box内每一个像素点属于前景还是背景。
把ROI Pooling 改善成ROI Align:
ROI Pooling
ROI Pooling 是 Fast R-CNN 中提出的一种方法,用于将任意大小的候选区域转换为固定大小的特征图。
过程:
确定边界框: 给定一个候选区域,确定其在特征图上的边界框。
划分网格: 将候选区域划分为固定数量的子区域(通常是 2x2 或 7x7 的网格)。
最大池化: 对每个子区域进行最大池化,得到固定大小的特征图。
缺点:
不精确: 确定边界框时可能会导致特征图上的像素位置与原始图像中的位置不完全对齐,特别是在边界处。论文中提到第一次quantization取整操作造成 misalignment。`
划分网格时:第二次quantization 特征图尺寸和7x7尺寸不是整数关系导致划分不均匀。
信息丢失: 最大池化可能会丢失一些细节信息。
ROI Align (RoIAlign)
定义: ROI Align 是在 Mask R-CNN 中提出的一种改进方法,目的是解决 ROI Pooling 的不精确问题。
过程:
确定边界框: 同样给定一个候选区域,确定其在特征图上的边界框。
划分网格: 将候选区域划分为固定数量的子区域。
双线性插值: 在每个子区域内使用双线性插值来采样固定数量的点(通常是 4 个点),从而得到更精确的特征图。
优点:
精确: 通过双线性插值,RoIAlign 可以更精确地保留候选区域的特征信息,特别是在边界处。
信息保留: 双线性插值相比最大池化更能保留细节信息。
因为是像素级别的分类,为了预测准确性,不和Faster R-CNN ROI Align,特征图大小使用更大的14x14尺寸。论文中结构对比如下图:
训练网络时输入mask分支的目标由RPN提供,因为RPN候选区域的不是特别准确一定程度可以增加数据的多样性,而预测时输入mask分支由Fast R-CNN提供,因为此时经过NMS操作,框位置及分类信息更精确,同时也可以减少计算量。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- niushuan.com 版权所有 赣ICP备2024042780号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务