데이터 전처리는 머신러닝의 첫 번째 단계이며, 가장 중요한 작업이다. 머신러닝에서 가장 힘들고 하기 싫지만 너무나도 중요한 작업이 바로 데이터 전처리이다. 모델이 성능을 내기 위해서는 반드시 데이터가 정제된 상태에서 학습을 수행해야 하기 때문이다. 지금까지 알아본 내용은 모두 머신러닝 지도 학습 프로세스에 해당한다. 지도 학습의 큰 그림은 다음과 같다. 데이터 전처리 → 학습/테스트 데이터 분할 → 모델학습 및 검증평가 → 예측 및 평가 지난 두 번의 포스팅에서 데이터를 분할하고 모델링(알고리즘 학습)과 교차 검증을 진행하며, 테스트 데이터로 예측을 수행하고 모델의 성능을 측정하는 과정까지 모두 살펴보았다. 남은 데이터 전처리 단계에서는 주로 다음과 같은 작업을 수행한다. 이 중 어떤 작업을 해줄지는 데..