코드카타(https://essay2892.tistory.com/93)
심화 프로젝트 시작(도금욕 공정 데이터 기반 품질 예측)
라이브세션
더보기
K-means는 초기값에 따라 결과가 변동되며, DBSCAN은 파라미터가 같다면 항상 동일한 결과
T-sne, UMAP, HDBSCAN 한번 찾아보기
PCA - 차원의 저주를 해결(차원 축소)
주어진 데이터의 중요한 정보만 남겨 차원을 줄이는 것
X1,X2, .. , X10 → X1, X3, X5 → 변수 선택하듯이 선별하는게 X
분산 = 정보량
왜? → 가방이 무거우면 불편하듯, 데이터 차원이 크면 분석이 어려움
중요한 물건 선택 → 데이터에서 가장 중요한 특징(주성분) 찾기
효율적으로 정리 → 데이터를 주성분 방향으로 변환
불필요한 것 제거 → 가장 중요한 주성분 몇 개만 선택
공분산, 고유벡터, 고유값
스케일링 : 공분산 + 스케일링 -> 상관계수
중심화 : 원래 데이터에서 각 축의 평균을 빼서 0,0 축으로 이동 - 변화량을 정확하게 측정하기 위함
공분산 행렬 * A -> A의 벡터방향과 크기 바뀜
A행렬: 원형의 모양 -> 공분산 행렬 곱합으로써 -> 타원형
n개의 변수 -> n개의 고유벡터 존재 = n개의 주성분
PC1이 보유하는 정보량 > PC2이 보유하는 정보량 > PC3이 보유하는 정보량
'TIL(Today I Learned)' 카테고리의 다른 글
[2025/02/06]내일배움캠프 QA/QC 1기 - 33일차 (0) | 2025.02.06 |
---|---|
[2025/02/05]내일배움캠프 QA/QC 1기 - 32일차 (0) | 2025.02.05 |
[2025/02/03]내일배움캠프 QA/QC 1기 - 30일차 (0) | 2025.02.03 |
[2025/01/31]내일배움캠프 QA/QC 1기 - 29일차 (2) | 2025.01.31 |
[2025/01/27]내일배움캠프 QA/QC 1기 - 28일차 (0) | 2025.01.27 |