Bias(편향) & Variance(분산)
머신러닝 모델을 학습 시킬 때, bias와 variance 개념을 먼저 알아야 한다.
나이에 따른 의료비용 관계를 예측하고 싶을 때, 위의 그림의 회색선처럼 True relationship 이 존재할 것이다. (그러나.. True relationship은 아무도 모른다..)
Linear regression


Linear regression (아래 그림에서 빨간선) 으로 예측했을 때, 아래 데이터에 대한 비선형적인 관계를 포착할 수 없다. (나이에 따른 연간의료비용은 비선형의 관계를 띄기 때문)
이 때, train set에 대한 예측 오차를 bias라고 한다.
Polynomial regression


위의 polynomial regression 을 보면 train set에 대해서 bias가 거의 없다. 매우 복잡한 모델이 유연하게 예측하기 때문이다. 그러나, train set에 과적합 되어 test set에 대해서는 예측 포인트과 차이가 큰 모습을 보여준다. 이를 variance가 크다고 하며, test set에 대해 예측 성능의 편차가 크므로 일반적이지 않은 모델이라고 한다.
bias와 variance는 trade-off 관계에 있는 것을 알 수 있다.
결론적으로, bias와 variance를 줄이는 것이 머신러닝에 있어서는 매우 중요한 과제인데, regularization, boosting, bagging 등 다양한 기법이 있다. 다음 장부터 이 방법들에 대해 하나씩 소개하겠다.
'Machine learning' 카테고리의 다른 글
| [부스팅 모델] AdaBoost (1) | 2024.02.12 |
|---|---|
| Gradient Descent 쉽게 이해하기 (0) | 2023.11.06 |
| [앙상블] Bagging과 Boosting (0) | 2023.10.29 |