Resampling은 통계학에서 중요한 요소 중 하나이다. 이는 Training Data에서 반복적인 sampling을 통해 모델에 적합해보는 것을 의미한다.
본 장에서는 가장 일반적인 Resampling인 Cross-Validation과 Bootstrap에 대한 설명을 진행한다.
통계학에서 일반적으로 Training data error 과 Test data error 중 Test data error를 낮추는 것을 최종적인 목표라 할 수 있다. 하지만 실 세계에서는 Test data가 주어지지 않기 때문에 힘든 경우가 많다. 따라서 이를 해결하기 위해 직접적인 방법(Train data를 샘플링하여 추정하는 방법), 간접적인 방법(Train error의 수학적인 보정을 통한 Test error 추정)을 통해 추정을 진행한다.
Validation Set 방식을 간단히 설명하면 훈련 데이터를 무작위적으로 샘플링하여 반으로 나눠서 Train과 Validation data로 나누는 방식을 설명한다.