经过分割与重组后,得到的proposals为2000个,将得到的不同大小的proposals进行warp操作得到尺寸统一的inputs,得到的特征矩阵是2000x4096,然后SVM的权重矩阵是4096 x N。 如下是AlexNet网络,《ImageNet Classification with Deep Convolutional Neural Networks》,知输入是一张一张输入的,然后得到此矩阵。
RCNN分为的四个步骤:
1、每张图片1k~2k个候选区域
2、对每个侯选区域,使用深度网络提取特征
3、特征送入SVM分类器,判别是否属于该类
4、使用回归其精细修正候选框位置
已经对第2个步骤进行了理解,对于第4个步骤,如何位置精修?
回归器:线性脊回归
通过损失函数最小化,训练回归器,然后对每一类的结果进行修正。
输入是pool5层的4096维特征,输出为xy方向的缩放和平移。
参考博客:https://blog.csdn.net/shenxiaolu1984/article/details/51066975