实施Keras层，为区域提议网络功能性API采用不同形状的输入

问题描述

我用Keras功能API编写了一个基于Faster R-CNN的区域提议网络的实现，我遇到了一个问题，经过一番搜索我没有找到明确的解决方案。

我有一个自定义层，称为Roi_Projection_Layer，它将是Keras中的一个自定义层。该层应采用：

来自shape = (None,32,19,512)（第一维是批处理大小）图像的卷积特征图，以及
shape=(None,1,4)的锚点框，例如sample_anchor_Box = [x_centre,y_centre,Box_width,Box_height]

我希望将这两个明显不同形状的张量传递到Keras层，以便我可以使用锚框的中心和形状作为投影参数，也就是在空间维度上获得特定的3 x 3窗口的特征图，将其传递给模型中的更多层。

我不确定该怎么做。我的一些想法是将锚定框值附加到每个通道的空间尺寸上，即传递空间尺寸（32 * 19 + 4）的特征图，但是我不确定的是，如果您修改输入在严格的Keras层操作之外，一旦模型被编译，模型会缺少该代码吗？任何见解都表示赞赏。

解决方法

由于没有得到答案，因此我将发布尝试/调查信息。

我能够通过子类化keras.layers.Layer来编码ROI投影层，其中输入是单个元组的列表。列表中的第一个元素是一个元组，即该元组的第一个元素是单个图像，第二个元素是[x_min,y_min,width,height]形式的锚框集合。由于在Faster R-CNN中的下一个卷积层将3 x 3窗口作为输入，因此我将结果填充为零，因此对于映射到特征图边界像素的锚点框，我们需要填充。

class RoiProjectionLayer(keras.layers.Layer):
    def __init__(self,stride):
        super(RoiProjectionLayer,self).__init__()
        self.stride = stride
    def call(self,inputs):
        projected_feature_maps = []
        batch_size = inputs[0][1].shape[0]
        for i in range(batch_size):
            # x centre (after padding) of the anchor box location in the feature map
            x_val = tf.dtypes.cast(inputs[0][1][i][0]/self.stride,tf.int32)+2
            # y centre (after padding) of the anchor box location in the feature map
            y_val = tf.dtypes.cast(inputs[0][1][i][1]/self.stride,tf.int32)+2 
            feature_map = inputs[0][0][0]
            padding_values = tf.constant([[2,2],[2,[0,0]])
            feature_map = tf.pad(feature_map,padding_values,"CONSTANT")
            projected_feature_maps.append(feature_map[x_val-1:x_val+2,y_val-1:y_val+2,:])
        return tf.stack([x for x in projected_feature_maps])

基本上，关键是要注意，keras中的图层可以采用张量元组列表。即使在不急于执行的情况下也可以使用，但是我不得不将batch_size设置为RoiProjectionLayer类的固定参数。

faster-rcnn keras keras keras-layer