데이터 꿈나무
[머신러닝] target 데이터 '로그 변환' 개념 정리 본문
로그변환을 통해 왜도와 첨도를 가진 변수를 정규분포에 가깝게 해줍니다. 큰 수치를 같은 비율의 작은 수치로 변환하는 것입니다. 그리고 정규성을 높이고 분석(회귀분석 등) 에서 정확한 값을 얻기 위해 해줍니다.
선형 회귀 모델과 같은 선형 모델은 일반적으로 열(피처, feature)과 타깃값 간에 선형의 관계가 있다고 가정하고, 이러한 최적의 선형함수를 찾아내 결과값을 예측합니다.
또한 선형 회귀 모델은 피처값과 타깃값의 분포가 정규분포인 형태를 매우 선호합니다.
특히 타깃값의 경우 정규 분포 형태가 아니라 특정값의 분포가 치우친 왜곡된 형태의 분포도일 경우 예측 성능에 부정적인 영향을 미칠 수 있습니다. 따라서 선형 회귀 모델을 적용하기 전에 먼저 데이터에 대한 스케일링/정규화 작업을 수행하는 것이 일반적입니다. 하지만 이러한 스케일링/정규화 작업을 선행한다고 해서 무조건 예측 성능이 향상되는 것은 아닙니다.
일반적으로 중요 피처들이나 타깃값의 분포도가 심하게 왜곡됐을 경우에 이러한 변환 작업을 수행합니다.
단, 변환 후 test data에 대해 target을 예측한 후에 로그변환 값을 풀어주어야 합니다.
타깃값의 경우는 일반적으로 로그 변환을 적용합니다. 결정값을 정규 분포나 다른 정규값으로 변환하면 변환된 값을 다시 원본 타깃값으로 되돌리기 어려울 수 있습니다. 무엇보다도, 왜곡된 분포도 형태의 타깃값을 로그 변환하여 예측 성능이 향상된 경우가 많은 사례에서 검증되었습니다. 따라서 타깃값의 경우는 로그 변환을 적용하는 것이 좋습니다.
'AI > Machine Learning' 카테고리의 다른 글
| [Machine Learning] 머신러닝에서 bias, variance란? (0) | 2024.01.14 |
|---|---|
| [ML] 활성화 함수(Activation Function) 종류 (2) | 2022.10.08 |