An Overview of Classification
데이터는 정량적, 정성적으로 나뉜다. 이는 수치형과 범주형이라고도 하며 양적 질적이라고도 한다.
- 정량 : 숫자로 표시되는 값
- 정석: 카테고리 또는 class로 표시되는 값
대체로 타겟 변수가 정량적일 때는 회귀 문제로 정성적일 때는 분류 문제로 해결을 진행한다.
분류 : 관측치에 대한 질적(범주형) 반응 변수를 예측하는 것
- 본 장에서는 모의 Default 자료를 통해 분류의 개념을 설명한다.
- 연관 소득과 월간 신용카드 대금을 바탕으로 누가 대금을 연체하는지 예측 분류 한다.
- 그림을 살펴보면 파란색은 채무 이행을 주항색 표시는 채무 불이행을 의미한다.
- 박스 그래프를 살펴보면 수입과는 달리 신용카드 대금이 많은 쪽이 대체로 채무 불이행자가 많은 것을 알 수 있다. 이는 신용카드 대금과 채무 불이행 사이의 상관관계가 존재한다는 것을 의미한다.
Why Not Linear Regression?
반응 변수가 정성적인 경우 선형회귀가 적절하지 않은 이유에 대해 알아본다. 환자의 증상을 근거로 읍글실에 와 있는 환자의 의료 상태를 예측해본다. 타겟 변수로는 뇌졸증, 약물 과다, 간질성 발작 이다. 이를 순서를 가지는 변수로 변환해본다.