im2colとは

Python, ML07 January 2021

高速に畳み込みを行うためのテクニックの1つ

2次元行列に変換する

  • 画像はフィルタサイズごとに、フィルタはそのまま1列(column)に変換する。
  • 先に形を変換しておくだけで、計算は行列積一回でOK
  • 行列積の計算にできるということは並列計算になるので、GPUと相性がいい

im2col

def im2col(input_data: np.array, filter_h: np.array, filter_w: np.array, stride: int=1, pad: int=0):
    # N: バッチサイズ, C: チャンネル数, H: 高さ, W: 幅
    N, C, H, W = input_data.shape

    # 出力の高さと幅
    out_h = (H + 2*pad - filter_h)//stride + 1
    out_w = (W + 2*pad - filter_w)//stride + 1

    # パディング(高さと幅を足す)
    img = np.pad(input_data, [(0,0), (0,0), (pad, pad), (pad, pad)], 'constant')

    # 0初期化でcol変更用ndArrayを作成
    col = np.zeros((N, C, filter_h, filter_w, out_h, out_w))

    # col変換
    for y in range(filter_h):
        y_max = y + stride*out_h
        for x in range(filter_w):
            x_max = x + stride*out_w
            col[:, :, y, x, :, :] = img[:, :, y:y_max:stride, x:x_max:stride]

    col = col.transpose(0, 4, 5, 1, 2, 3).reshape(N*out_h*out_w, -1)
    return col

tags: Python, ML