지도학습의 정의
지도 학습은 입력과 출력 샘플 데이터가 있고, 주어진 입력으로부터 출력을 예측하고자 할때 사용됩니다.
이런 입력/출력 샘플 데이터, 즉 훈련 세트로부터 머신러닝 모델을 만듭니다.
지도학습의 종류
지도학습은 분류와 회귀로 나뉩니다.
1 ) 분류
분류는 미리 정의된, 가능성 있는 여러 클래스 레이블 중 하나를 예측하는 것입니다. 딱 두 개의 클래스로 분류하는 이진 분류(binary classification)와 셋 이상의 클래스로 분류하는 다중 분류(multiclass classification)로 나뉩니다. 이진 분류는 질문의 대답이 예/아니오만 나올 수 있도록 하는 것입니다. 예를들어 "이 이메일은 스팸인가요?"가 됩니다. 다중 분류는 웹사이트의 글로부터 어떤 언어의 웹사이트 인지를 예측하는 것입니다.
2 ) 회귀
회귀는 연속적인 숫자를 예측하는 것입니다. 예를 들어 어떤 사람의 교육 수준, 나이, 주거지를 바탕으로 연간 소득을 예측하는 것입니다. 이 예시들의 결과는 어떤 숫자의 형태로 나타내집니다.
분류와 회귀를 구분하는 법
분류문제와 회귀문제를 구분하는 방법은 출력 값에 연속성을 확인하면 됩니다. 예상 출력 값 사이에 연속성이 있다면 회귀 문제입니다. 예를 들어 회귀 문제에서 연소득을 예측하는 경우를 생각해보면, 어떤 사람이 1년에 3천만원 혹은 3천만원 1원을 벌 수 있지만 큰 차이는 아닙니다. 반대로 분류문제에서 웹사이트가 어떤 언어로 되어 있는지 인식하는 작업에는 어느 정도란 것이 없습니다. 즉 연속성이 존재하지 않습니다.
댓글
댓글 쓰기