ディープラーニングの正規化と正則化

正規化

一般に機械学習においては、前処理においてデータを扱いやすい（学習しやすい）形に整える事。これをしないと、特徴ごとのスケールの差でレンジが大きいものがより影響を与えてしまうのでよくない。

0 ~ 1のスケールに全特徴量を揃えるのが一般的

平均を０、標準偏差を１にする事。データから平均を引いて、標準偏差で割る。

各データの各次元に相関がなくなるようにデータを回転させる。相関があると学習がうまくいかないことが多いため

無相関化してから標準化すること。

各バッチ、各NN層ごとに標準化したい。そもそもNNには以下の通り、内部共変量シフトと言う問題点がある。

通常の機械学習モデルと異なり、NNにおいては入力値に対して正規化を行ったとしても、層ごとに出力がなされその値が次の入力となるので、次の層では必ずしも正規化の恩恵を受けれない。

学習時はミニバッチごとに平均と分散を計算できるが、仮に推論時はデータが１件だった場合どうするのかという問題 学習時に全ての平均と分散計算自体の平均を保持しておいて、学習時はそれに従い標準化する

最近のディープラーニング界隈では、モデルが過学習しづらくするために課すペナルティの事を総称して正則化と呼んでいる。

パラメータのL2ノルムを損失に加える

$$ E(W)=E_D(W)+\lambda E_W(W) $$

$$ E_W(W)=|W|^2$$

$$ \lambda は定数 $$

パラメータのL1ノルムを損失に加える

$$ E(W)=E_D(W)+\lambda E_W(W) $$

$$ E_W(W)=|W| $$

L1正則化はL2正則化と対して変わらないのに、何が良いのか？ L1正則化を使用すると重みが「スパース」になる（0値が増える）

ディープラーニング専用の正則化方法（時間がかかるから好まれない）

ニューロンを適当に消す