SGD（確率的勾配降下法）の改善

SGD（確率的勾配降下法）の欠点を補う方法が色々と考案されている。それらの内容を簡単にまとめるためのメモ。

SGD（確率的勾配降下法）とは

ミニバッチごとにランダムな初期値をサンプリングし、勾配降下法を行う。様々な初期値からスタートするため、大域的最適解（損失関数全体で最も損失の低い所）にたどり着く可能性が上がる。

$$ g=\frac{\delta L(\theta)}{\delta\theta} $$

$$ \theta=\theta - g $$

名前の通り、過去の更新を見て次の更新を特定の方向に加速させる。

$$ g=\frac{\delta L(\theta)}{\delta\theta} $$

$$ m=\eta g+\gamma m$$

$$ \theta=\theta - m $$

前のmが大きくなるほど大きくなる。

Momentumのデメリットである、最適解を通り過ぎてしまう問題を軽減する。

$$ g=\frac{\delta L(\theta - m)}{\delta\theta} $$

$$ m=\eta g+\gamma m$$

$$ \theta=\theta - m $$

***

mは勿論計算するまで分からないので、前回からの更新を元にこのまま進行するとこの値になると言うのを計算し近似する。

一般に、SGDと言うとNesterovのMomentumの事を言っている。（フレームワークでもSGDを指定するとこれになる）

現在性能悪すぎて使われない。

AdaGradでは必ず学習率を下げる方向にしか調整できなかったが、逆に上げる方向にも対応したのがこれ。これも今は使われない。

RMSPropの改良。フレームワークに入ってるし、精度も出るのでよく使われる。 Adamよりも良いものがあるが、フレームワークとかになかったりするのでちょっと面倒。

勾配の平均と分散を考慮してMomentumを決定する

SGD（確率的勾配降下法）は初期値にかなり依存する考え方である。（最近はモデル自体の精度が上がったので、結構テキトーになった）ランダムで初期値を決めるよりも、もっと良い定義の方法があるはずと言う考えのもと、以下が使用される。