前提 入力するデータは同じだが、同時にいくつかの問題を解きたい(推論したい)場合がある これらを別の問題としてそれぞれのネットワークに分けるのではなく、1つのネットワークでやる方がむしろ効果が期待できる NNの途中の層までは共通である程度の層で分岐する なぜ効果が出るのか? Aという問題とBという問題に関連がある場合、共通の特徴量を流用できるから AがBより難易度の高い推論だとすると、先にBに関して学習しそれを活かしてAを学習するというように段階的にできるから