( RPN:
首先图片经过backbone抽取特征图
然后,RPN网络首先对特征图做一下卷积,比如3*3*256,就得到(1,256)的长向量,分两支分别判断:
1.是不是物体(因为只是区域建议,只需要区分是前景还是背景)
2.若是物体,就用预设的每个特征图锚点对应的anchor box(本身这个锚框的尺寸无论是相对便宜还是绝对尺寸都是指对应到原图上的尺寸)去粗回归这个位置(锚点是指特征图上的点,但是本质上锚点和原图本身就有一一映射关系)
最后,这个粗回归的位置就是原图的目标位置框。)
Faster RCNN:
1.拿RPN对应到原图的目标框坐标,直接到上面抽取的特征图(共享特征图)去对应拿到目标区域的特征图
2.拿这块特征图先ROI池化,得到固定大小的proposal feature map(ROI pooling目的:对不同尺寸原图得到的不同尺寸的Proposal在ROI池化后都可以得到相同大小的池化特征图。当然,如果不用ROI池化就要用裁剪或者直接做仿射变换,裁剪会导致特征缺失,仿射变换会导致特征变形。
实现手段:划分固定块的网格,池化----------方法出自SPPNet)
3.用这个pooling后的feature map再去回归bbox位置(这个池化后特征图依然对应了之前RPN粗回归的部分锚点(有些池化丢失了)在原图上对应的目标框位置),对这些位置再次监督回归,修正位置及尺寸。
原文:https://www.cnblogs.com/Henry-ZHAO/p/12881013.html