TIL(Today I Learned)

[2025/02/04]내일배움캠프 QA/QC 1기 - 31일차

essay2892 2025. 2. 4. 20:41

코드카타(https://essay2892.tistory.com/93)

 

심화 프로젝트 시작(도금욕 공정 데이터 기반 품질 예측)

 

라이브세션

더보기

K-means는 초기값에 따라 결과가 변동되며, DBSCAN은 파라미터가 같다면 항상 동일한 결과

 

T-sne, UMAP, HDBSCAN 한번 찾아보기

 

PCA - 차원의 저주를 해결(차원 축소)

주어진 데이터의 중요한 정보만 남겨 차원을 줄이는 것

X1,X2, .. , X10 → X1, X3, X5 → 변수 선택하듯이 선별하는게 X

분산 = 정보량

왜? → 가방이 무거우면 불편하듯, 데이터 차원이 크면 분석이 어려움

중요한 물건 선택 → 데이터에서 가장 중요한 특징(주성분) 찾기

효율적으로 정리 → 데이터를 주성분 방향으로 변환

불필요한 것 제거 → 가장 중요한 주성분 몇 개만 선택

공분산, 고유벡터, 고유값

 

스케일링 : 공분산 + 스케일링 -> 상관계수
중심화 : 원래 데이터에서 각 축의 평균을 빼서 0,0 축으로 이동 - 변화량을 정확하게 측정하기 위함

 

공분산 행렬 * A -> A의 벡터방향과 크기 바뀜

A행렬: 원형의 모양 -> 공분산 행렬 곱합으로써 -> 타원형

 

n개의 변수 -> n개의 고유벡터 존재 = n개의 주성분

 

PC1이 보유하는 정보량 > PC2이 보유하는 정보량 > PC3이 보유하는 정보량