TIL(Today I Learned)

[2025/01/27]내일배움캠프 QA/QC 1기 - 28일차

essay2892 2025. 1. 27. 20:27

코드카타(https://essay2892.tistory.com/86)

 

베이직 라이브세션 1회 + 챌린지 라이브세션 1회 + 머신러닝 주요기법 2회

더보기

캐글에 이미 많은 데이터분석가들이 올려둔 분석 노트북이 존재. Code에서 정렬 기준 Hotness 를 Most Votes로 변경하고 찾아보면 좋음
금요일까지 숙제 해보기

 

시계열 데이터

특정 시간 간격을 두고 연속적으로 관측된 값.

예측, 트렌드 분석, 이상 탐지 등에 사용

제조 공정 센서 데이터는 시간 단위, 분 단위, 초 단위로 기록

 

시계열 데이터의 특징

시간 의존성, 자기 상관성, 트렌드와 계절성

추세성, 순환성, 불규칙 요소

 

datetime - 시계열 데이터 다룰때 사용하는 라이브러리

 

.dayofweek 일주일을 숫자로 변환

 

분류 - 미리 정의된 범주(클래스)로 구분하는 지도학습

두 가지 범주로 분류 - 이진 분류

두 가지 이상의 범주로 분류 - 다중 분류

예측 타켓값이 범주형일 경우 회귀 사용 불가능하기 때문에 분류를 사용

회귀모델 = 정규분포 가정 but 범주형은 이산확률분포이기 때문에 가정 성립 불가

크게 Parametric 모델/ Non-Parametirc 모델로 나뉨

Parametric : 데이터 분포에 대한 가정을 진행 모수 추정. 로지스틱 회귀, linear SVM

Non-Parametric : 가정 없음 모수 추정 진행x(유연함). 결정 트리, 랜덤 포레스트

 

정밀도, 재현율 파악(분류 모델 성능 평가지표)

 

Odds, Logit 함수

[0, 1]을 -무한대 ~ 무한대로 변환

회귀방정식 사용

식변환, 경사하강법을 사용하여 loss를 최소화 하는 지점 찾음