TIL(Today I Learned)

[2024/12/13]내일배움캠프 QA/QC 1기 - 사전캠프 2일차

essay2892 2024. 12. 13. 17:18

사전 캠프 마지막 날

게더 대신 본캠프에서 사용하는 ZEP으로 진행

본캠프 진행시 스마트폰 HRD-NET 어플 사용하여 출석 진행


 

SQL 7강

Where절에 여러 조건 적용(논리연산)

where 조건1 and 조건2

where 조건1 or 조건2

where not 조건

더보기

select *

from customers

where age >= 21

and gender = 'male'

 

select *

from food_orders

where cuisine_type = 'Korean' and price >= 30000

 

select *

from payments

where pay_type = 'card' or vat <= 0.2

SQL 8강

에러메세지

에러코드 이후에 나오는 문장을 확인하면 에러가 발생한 이유를 알려줌

더보기

테이블 명이 다를 경우 : Table '~~~' doesn't exist

 

컬럼 명이 다를 경우 : Unknown column '~~~' in 'field list'

 

조건문 문자에 작은따옴표를 안했을 경우 : Unknown column '문자' in 'where clause'

SQL 1주차 숙제(https://essay2892.tistory.com/3)

SQL 1주차 강의 완강


 

QAQC 사전캠프 퀘스트 - 데이터 톺아보기(걷기반) - 1주차 강의로는 부족했음

https://essay2892.tistory.com/4


 

데이터 분석 2강

타이타닉 탑승자 명단 분석(스프레드시트 사용)

부유한 탑승자가 더 많이 살아남는다 - 가설

Survived - 생존(1), 사망(0)

Pclass - 좌석의 등급 (1등석, 2등석, 3등석)

Sex - 여자(1), 남자(0)

SibSp - 형제, 자매 수

Parch - 동승자 수

Fare - 지불 요금

Pclass가 낮고 Fare가 높은 생존자(Survived =1)에 집중

빈칸은 데이터 분석에 방해되므로 우선 처리(필터 처리하여 공백 제거)

 

데이터 전처리 : 데이터 가져오기, 데이터 살펴보기, 데이터 다듬기

 

데이터 분석 3강

데이터 분석하기(분석도구 활용)

스프레드 시트 부가기능 설치(XLMiner Analysis ToolPak)

현재 진행중인 데이터 분석은 상관관계 분석(Correlation)

 

Input Range: B1:G892

Output Range: J:Q

Labels in First Row

 

데이터 분석 4강

  Survived Pclass Sex SibSp Parch Fare
Survived 1          
Pclass -0.338481036 1        
Sex 0.5433513807 -0.1319004906 1      
Parch -0.04996725867 0.003049954163 -0.009018987636 0.0148947849 1  
Fare 0.2573065224 -0.5494996199 0.1823328338 0.1596510432 -0.02364801235 1

차트를 통해 시각화 진행

계열에서 Survived 이외 모두 삭제

 

상관관계 - 양수 음수 구분 없이 절댓값이 큰 것이 영향을 크게 미친다.

성별이 여자(1) 인 경우 가장 많이 살아남음

 - 지불 요금이 많을 수록 생존율이 올라가긴 했으나 정도가 크지 않음

 - 좌석 등급이 높을수록(1에 가까울수록) 생존율이 올라갔으나 그 정도가 성별에 미치지 못함

 

결론 : 요금과 좌석 등급 모두 생존율과 관계가 있다.

더보기

요금과 좌석 등급의 상관관계

차트 시각화, 계열에서 Pclass 이외 모두 삭제

Pclass는 Fare와 가장 큰 상관관계를 가짐

더보기

1) 문제 정의, 가설 설정

2) 데이터 분석 기본 세팅

3) 데이터 분석

4) 분석 결과 시각화

5) 최종 결론

더보기

기본 데이터 분석은 엑셀로도 가능하나 몇가지 불편한 점 존재

 

1) 대용량 분석 어려움, 시간 오래 걸림

2) 고도화된 분석으로 나아갈 수록 파이썬이 우세

3) 엑셀 문법보다 파이썬 문법이 쉬움

4) 파이썬은 비어있는 데이터를 처리하기 쉬움

 

데이터 분석 5강

파이썬 기초

파이썬 : 컴퓨터에 지시를 내릴 수 있도록 해주는 번역팩

라이브러리 : 특정 동작을 할 수 있게 하는 코드 모음집

 - pandas : 데이터 분석 라이브러리

 - matplotlib : 데이터 시각화 라이브러리

 

데이터 분석 6강

1주차 숙제(https://essay2892.tistory.com/6)

데이터 분석 1주차 강의 완강