Python/파이썬 경마 분석
outlier(이상치, 아웃라이어) 제거하기
이상치들은 특정 범위에서 너무 벗어나 있어 데이터 분석이나 모델링의 결과에 커다란 영향을 미칩니다. 그래서 outlier, 이상치를 제거하는 작업을 해야 하는데요. 눈으로 일일이 보고 제거할 수도 있겠지만, 변수의 수가 너무 많으면 이 또한 쉬운 일이 아닙니다. 아웃라이어를 제거하는 방법과 기준도 다양하고, 보정하는 방법에서 삭제하는 방법까지 처리하는 방법도 다양합니다. 파이썬 sklearn 패키지에서 제공하는 이상치 제거방법을 알아보았습니다. HTML 삽입 미리보기할 수 없는 소스 sklearn 패키지의 documenation에 가면, novelty and outlier detection 섹션에서 4가지의 방법을 설명하고 있습니다. novelty detection은 새로운 값이 들어왔을 때, 그 값이 ..