機械学習、統計で必須の平均と分散と標準偏差についてまとめる
平均
あるデータを全て加算し、そのデータ数で除算したもの。
$$ \overline{x} = \frac{1}{n} \sum_{k=1}^{n} x_k $$
分散
各データから平均を引いて、2乗したものの総和をデータ数で除算したもの。
データ全体がどれだけバラツキのあるものかを知ることができる。(分散が大きいほどバラついてる)
$$ s^2 = \frac{1}{n} \sum_{k=1}^{n} (x_k - \overline{x} )^2 $$
2乗する理由としては、平均を引いた時に正負が混在した場合でも指標としてわかりやすくするため。
標準偏差
分散の平方根をとったもの。実際にどれくらいの数値にデータが集まっているのかがわかる。
$$ s = \sqrt{s^2} $$