Bias and Variance 쉽게 이해하기

Bias(편향) & Variance(분산)

머신러닝 모델을 학습 시킬 때, bias와 variance 개념을 먼저 알아야 한다.

나이에 따른 의료비용 관계를 예측하고 싶을 때, 위의 그림의 회색선처럼 True relationship 이 존재할 것이다. (그러나.. True relationship은 아무도 모른다..)

Linear regression

Linear regression (아래 그림에서 빨간선) 으로 예측했을 때, 아래 데이터에 대한 비선형적인 관계를 포착할 수 없다. (나이에 따른 연간의료비용은 비선형의 관계를 띄기 때문)

이 때, train set에 대한 예측 오차를 bias라고 한다.

Polynomial regression

위의 polynomial regression 을 보면 train set에 대해서 bias가 거의 없다. 매우 복잡한 모델이 유연하게 예측하기 때문이다. 그러나, train set에 과적합 되어 test set에 대해서는 예측 포인트과 차이가 큰 모습을 보여준다. 이를 variance가 크다고 하며, test set에 대해 예측 성능의 편차가 크므로 일반적이지 않은 모델이라고 한다.

bias와 variance는 trade-off 관계에 있는 것을 알 수 있다.

결론적으로, bias와 variance를 줄이는 것이 머신러닝에 있어서는 매우 중요한 과제인데, regularization, boosting, bagging 등 다양한 기법이 있다. 다음 장부터 이 방법들에 대해 하나씩 소개하겠다.

'Machine learning' 카테고리의 다른 글

[부스팅 모델] AdaBoost (1)	2024.02.12
Gradient Descent 쉽게 이해하기 (0)	2023.11.06
[앙상블] Bagging과 Boosting (0)	2023.10.29

Wave to AI

Bias and Variance 쉽게 이해하기

Bias(편향) & Variance(분산)

Linear regression

Polynomial regression

'Machine learning' 카테고리의 다른 글

티스토리툴바

Bias and Variance 쉽게 이해하기

Bias(편향) & Variance(분산)

Linear regression

Polynomial regression

'Machine learning' 카테고리의 다른 글

'Machine learning' Related Articles

티스토리툴바