코드카타(https://essay2892.tistory.com/84)
통계&머신러닝 개인과제 진행중
머신러닝 오프닝 3회 + 머신러닝 주요기법 1회
알파 큼, R작음 > 모델이 단순 = 오버피팅 방지, 언더피팅 생길 수 있음
알파 작음, R큼 > 모델 복잡 = 오버피팅 생길 수 있음
벌점 = 알파x(베타^2 합)
릿지회귀 = 모든 독립변수의 가중치를 작게 제약(오버피팅방지) = 알파값을 어느정도 크게 넣음
라쏘 회귀 : 가중치 절대값의 합에 벌점
가중치 절대값의 합이 R 이하가 되도록 규제
벌점 = 알파x(베타 절댓값의 합)
불필요한 독립변수의 가중치를 0으로 만들어 모델에서 제외(과적합 방지)
엘라스틱넷 릿지, 라쏘를 결합한 선형회귀 기법
구 정규화 기법의 장점을 모두 활용
알파 = 0 이면, 릿지, 알파 = 1이면, 라쏘
*** 중요 ***
데이터 스케일링 : 모델 학습시키기 전에 특성들의 범위나 분포를 일정한 범위로 맞추는 과정
모델성능 향상, 훈련 안정성 향상, 규제 효과
스케일링 방법 : 표준화, 정규화
다중공선성 진단 방법 - VIF
VIF가 10 이상인 X변수는 다중공선성을 보유하고 있다고 판단함
해결 방법 : 높은 VIF 갖는 변수 제거, PCA 차원 축소 방법 적용, 릿지 **라쏘** 회귀 적용
다중공선성은 반드시 처리해야하는 것이 아님
모델링의 목적이 해석인 경우 처리해야함(단, VIF 값만 보고 판단하지 말고 도메인 지식을 활용하여 변수간의 관계를 파악한 뒤 제거할지 결정해야함)
모델링의 목적이 예측인 경우에는 처리하지 않아도 됨
Feature Engineering
Variable Transfromation = 기존 변수를 변환 > 분포 변화
수치형 - Log 변환, Box-Cox 변환
데이터를 정규분포에 가깝게 변환하는 목적(정규성)
One-Hot Encoding
Label Encoding
Ordinal Encoding
'TIL(Today I Learned)' 카테고리의 다른 글
[2025/01/31]내일배움캠프 QA/QC 1기 - 29일차 (2) | 2025.01.31 |
---|---|
[2025/01/27]내일배움캠프 QA/QC 1기 - 28일차 (0) | 2025.01.27 |
[2025/01/23]내일배움캠프 QA/QC 1기 - 26일차 (0) | 2025.01.23 |
[2025/01/22]내일배움캠프 QA/QC 1기 - 25일차 (0) | 2025.01.22 |
[2025/01/21]내일배움캠프 QA/QC 1기 - 24일차 (0) | 2025.01.21 |