머신러닝 성능향상 주요기술
[ 4가지 알고리즘 비교 관련 ]
- Linear Reg, ..., LightGBM 4가지 알고리즘 : 자세한 알고리즘 동작원리를 수학적으로 어려워서 이해를 못했고, 오픈소스들이 있어서 간단하게 함수로 실행할수 있어서 비교해보았다.
[ Scaler 테스트 ]
ㅁ Scaler의 역할 : Scaler를 사용하여 모든 feature를 동일한 범위로 맞춰주면, 모델이 각 feature의 중요도를 균형 있게 학습할 수 있습니다.
1. 원본데이터
원본 데이터 분포
2. Standard Scaler사용시 :표준편차를 1로 맞추어 Scaling진행
[ 이상치제거]
- 이상치 제거 기술은 비정상적이거나 극단적인 값(이상치)을 탐지하고 처리하는 방법
- 이상치는 분석 결과에 부정적인 영향을 미칠 수 있기 때문에, 이를 탐지하고 적절히 처리하기 위함
[ 과대표집(oversampling) ]
- 과대표집(oversampling) : 불균형한 데이터셋에서 소수 클래스의 데이터를 인위적으로 늘려 클래스 간 균형을 맞추는 방법
- 원본데이터 : Class 0 - 28만3천, Class 1 - 2만5천
- 과대표집 진행후 : Class 0 - 28만3천, Class 1 - 28만3천
- 과대표집에 SMOTE 라이브러리 사용
[생활 습관 개선 가이드]
- 이미 입력된 개인건강데이터중에 아래 케이스를 고정해서 변경해보면서 확률이 어떻게 변하는지 확인
Case1. 몸무게 10kg감량될 경우
Case2. 녹색채소 20일이상 섭취하면
Case3. 감자튀김을 섭취하지 않으면
Case4. 과일을 20일이상 섭취하면
- 중요도 : 학습시킨 모델이 가장 영향을 많이 받은 Feature(=18가지 개인데이터)가 뭔지를 보여주는 차트
feature_importances_ 데이터를 보여주는 자료다.(학습할때 인공지능모델의 정확도를 측정하는데 가장 높은 영향을 준 Feature (=18가지 개인데이터) )
[그외 질의응답]
- 개선가이드 기능 관련 질문 : 정확히 어떻게/어떤원리로 작동하는건지 설명할 수 있어야 함