Neural Network의 한계 Vanishing Gradient Local Minima Overfitting 느린 학습 Vanishing Gradient Layer를 쌓아서 비선형 문제를 풀고 Backpropagation으로 multi layer를 학습하지만 전파하는 과정에서 기울기 값이 사라져 학습 안됨 backpropagation은 출력층부터 앞으로 하나씩 되돌아가며 각 층의 가중치를 수정하는 방법 사용 가중치를 수정하려면 출력 오차 값(loss)을 미분하여 사용 layer가 늘어나면 기울기가 중간에 0이 되어 버리는 기울기 소실(vanishing gradient) 문제가 발생 activation 함수로 사용된 sigmoid 함수의 특성 때문에 발생 sigmoid 미분하면 최대치가 0.3이 되고 ..