데이터 분석 숙련 주차(팀 변경)
코드카타(https://essay2892.tistory.com/70)
아티클 스터디(https://essay2892.tistory.com/71)
데이터 분석과 통계 1주차 문제
1. 데이터 분석에서 통계가 중요한 이유는 무엇인가요? 다음 보기 중에서 옳지 않은 것을 고르세요. - 3
1) 통계는 데이터를 이해하고 해석하는 데 도움을 준다.
2) 통계는 데이터에서 패턴을 발견하고 미래를 예측하는 도구를 제공한다.
3) 통계는 모든 데이터 분석 결과가 항상 정확하고 확실하다는 것을 보장한다.
4) 통계는 복잡한 데이터를 간단한 요약 정보로 변환할 수 있다.
2. 다음 중 기술통계(Descriptive Statistics)에 해당하는 것은 무엇인가요? - 2
1) 모집단의 평균을 추정하는 것
2) 데이터의 중앙값을 계산하는 것
3) 표본을 통해 모집단의 특성을 추론하는 것
4) 가설을 검증하는 것
3. 다음 중 추론통계(Inferential Statistics)에 해당하는 것은 무엇인가요? - 3
1) 데이터의 범위를 계산하는 것
2) 데이터의 분산을 계산하는 것
3) 표본을 기반으로 모집단의 평균을 추정하는 것
4) 데이터의 최빈값을 계산하는 것
4. 어느 학교의 학생들 10명의 수학 점수는 다음과 같습니다: 78, 82, 85, 88, 90, 92, 94, 96, 98, 100. 이 데이터의 평균을 구하세요.
# 90.3
5. 4번 문제의 학생 수학 점수의 중앙값을 구하세요.
# 91.0
6. 4번 문제의 학생 수학 점수 데이터의 범위(Range)를 구하세요.
# 22
7. 학생들의 수학 점수와 영어 점수가 각각 다음과 같을 때, 두 변수 간의 상관관계가 양의 상관관계인지, 음의 상관관계인지, 상관관계가 없는지 설명하고 그 이유를 얘기하세요.
수학 점수: 78, 82, 85, 88, 90, 92, 94, 96, 98, 100.
영어 점수: 70, 75, 80, 85, 85, 90, 90, 95, 95, 100.
#
![](https://blog.kakaocdn.net/dn/bef2er/btsLOEYb2DZ/lYYRm8OeG3ppfIqORirPI0/img.png)
양의 상관관계이며 그 값이 1에 근접하기 때문에 상관관계가 높다.
8. 다음 중 인과관계(Causation)와 상관관계(Correlation)의 차이에 대한 설명으로 옳은 것은 무엇인가요? - 2
1) 상관관계는 두 변수 간의 원인과 결과를 나타내고, 인과관계는 단순한 관계를 나타낸다.
2) 인과관계는 두 변수 간의 원인과 결과를 나타내고, 상관관계는 두 변수 간의 관계가 있지만 원인과 결과를 나타내지 않는다.
3) 상관관계와 인과관계는 동일한 개념이다.
4) 인과관계는 두 변수 간의 단순한 관계를 나타내고, 상관관계는 두 변수 간의 원인과 결과를 나타낸다.
데이터 분석과 통계 2주차
#
![](https://blog.kakaocdn.net/dn/bDQ9h8/btsLPNGAiOR/1G5uvADNiPKbjwAylej1Ik/img.png)
- loc (float): 정규분포의 평균 (기본값: 0.0)
- scale (float): 정규분포의 표준편차 (기본값: 1.0)
- size (int 또는 tuple of ints): 출력 배열의 크기 (기본값: None, 즉 스칼라 값 반환)
numpy.random.choice(a, size=None, replace=True, p=None)
- a (1-D array-like or int): 샘플링할 원본 배열. 정수인 경우 np.arange(a)와 동일하게 간주.
- size (int 또는 tuple of ints): 출력 배열의 크기 (기본값: None, 즉 단일 값 반환)
- replace (boolean): 복원 추출 여부. True면 동일한 요소가 여러 번 선택될 수 있음 (기본값: True)
- p (1-D array-like, optional): 각 요소가 선택될 확률. 배열의 합은 1이어야 함.
표본오차
- 표본에서 계산된 통계량과 모집단의 진짜 값 간의 차이.
- 표본 크기가 클수록 표본오차는 작아짐.
- 표본이 모집단을 완벽하게 대표하지 못하기 때문에 발생하며, 표본의 크기와 표본 추출 방법에 따라 달라질 수 있음
- 표본의 크기: 표본의 크기가 클수록 표본오차는 감소. 더 많은 데이터를 수집할수록 모집단을 더 잘 대표함
- 표본 추출 방법: 무작위 추출 방법을 사용하면 표본오차를 줄일 수 있음. 모든 모집단 요소가 선택될 동등한 기회를 가지게 해야 함.
신뢰구간
- 모집단의 특정 파라미터(예: 평균, 비율)에 대해 추정된 값이 포함될 것으로 기대되는 범위
- 신뢰구간 계산 방법
- 신뢰구간=표본평균±z×표준오차
- 여기서 z는 선택된 신뢰수준에 해당하는 z-값. 95% 신뢰수준의 z-값은 1.96.
- 일반적으로 95% 신뢰수준을 많이 사용
#
표본 평균: 169.01775928200402
95% 신뢰구간: (np.float64(166.87191170874118), np.float64(171.16360685526686))
scipy.stats.t.interval(alpha, df, loc=0, scale=1)
- scipy.stats는 SciPy 라이브러리의 일부로, 통계 분석을 위한 다양한 함수와 클래스들을 제공하는 모듈.
- scipy.stats.t.interval 함수는 주어진 신뢰 수준에서 t-분포를 사용하여 신뢰 구간(confidence interval)을 계산.
- alpha
- 신뢰 수준(confidence level). 예를 들어, 95% 신뢰 구간을 원하면 alpha를 0.95로 설정.
- df
- 자유도(degrees of freedom). 일반적으로 표본 크기에서 1을 뺀 값으로 설정(df = n - 1).
- loc
- 위치(parameter of location), 일반적으로 표본 평균을 설정.
- scale
- 스케일(parameter of scale), 일반적으로 표본 표준 오차(standard error)를 설정. 표본 표준 오차는 표본 표준편차를 표본 크기의 제곱근으로 나눈 값 (scale = sample_std / sqrt(n)).
#
![](https://blog.kakaocdn.net/dn/bQOqbO/btsLP7ZkeLG/VYSsO0Mp6hHOv46nxYcnTk/img.png)
긴 꼬리 분포
- 대부분의 데이터가 분포의 한쪽 끝에 몰려 있고, 반대쪽으로 긴 꼬리가 이어지는 형태의 분포.
- 정규분포와 달리 비대칭.
- 특정한 하나의 분포를 의미하지 않으며 여러 종류의 분포(예: 파레토 분포, 지프의 법칙, 멱함수)를 포함.
- 아무리 데이터가 많아지더라도 정규분포가 되지 않음.
#
![](https://blog.kakaocdn.net/dn/dVtNb0/btsLP33Ilbc/spK9W7NKOqDdUq4ciXAmIk/img.png)
스튜던트 t 분포
- t분포는 모집단의 표준편차를 알 수 없고 표본의 크기가 작은 경우(일반적으로 30미만)에 사용되는 분포.
- 정규분포와 유사하지만, 표본의 크기가 작을수록 꼬리가 두꺼워짐.
- 표본 크기가 커지면 정규분포에 가까워짐.
#
![](https://blog.kakaocdn.net/dn/Eu4K0/btsLOVr6L8A/yAklOyVunKDO4djoopxFAK/img.png)
카이제곱 분포
- 범주형 데이터의 독립성 검정이나 적합도 검정에 사용
- 자유도에 따라 모양이 달라짐.
- 상관관계나 인과관계를 판별하고자 하는 원인의 독립변수가 ‘완벽하게 서로 다른 질적 자료’일 때 활용
- ex) 성별이나 나이에 따른 선거 후보 지지율
- 범주형 데이터 분석에 사용
- 자유도가 커지면 정규분포에 근사
#
![](https://blog.kakaocdn.net/dn/1Wpv7/btsLQlQErFE/9opPWurFBIiCuJBVfD2clK/img.png)
이항분포
- 성공/실패와 같은 두 가지 결과를 가지는 실험을 여러 번 반복했을 때 성공 횟수의 분포
- 이런 이항분포처럼 연속된 값을 가지지 않는 분포를 이산형 분포라고 지칭 하기도 함.
- 독립적인 시행이 n번 반복되고, 각 시행에서 성공과 실패 중 하나의 결과만 가능한 경우를 모델링하는 분포
- 성공 확률을 p라 할 때, 성공의 횟수를 확률적으로 나타냄
- 횟수가 증가할수록 정규분포에 근사
#
![](https://blog.kakaocdn.net/dn/bEmdVH/btsLO8dMZyL/8t4t6MLJZJPKt8HScT0Up1/img.png)
푸아송 분포
- 단위 시간 또는 단위 면적 당 발생하는 사건의 수를 모델링할 때 사용하는 분포.
- 평균 발생률 λ를 가진 사건이 주어진 시간 또는 공간 내에서 몇 번 발생하는지를 나타냄
- 연속된 값을 가지지 않기 때문에 이 분포도 역시 이산형 분포
- 평균 발생률 λ가 충분히 크다면 정규분포에 근사
- 단위 시간 또는 단위 면적당 희귀하게 발생하는 사건의 수를 모델링하는 데 적합
#
![](https://blog.kakaocdn.net/dn/KkfCD/btsLPsiJoR9/FTvkgtOQJtHq1hiKjZUwE0/img.png)
분포간의 관계
![](https://blog.kakaocdn.net/dn/XO4Ym/btsLP4aDhaR/cDEthppRLHhTnHMIQ6d4NK/img.png)
- 결국 데이터 수가 엄청 많아지면 정규분포에 수렴 (중심극한정리)
- 데이터 수가 많으면 묻지도 따지지도 말고 바로 정규분포로 가정!
- 하지만, 데이터가 적을 경우 각 상황에 맞는 분포를 선택
- 특히, long tail distribution은 데이터가 많아도 정규분포가 되지 않는 분포!
- 데이터 수가 충분하다 → (무조건) 정규분포
- 데이터 수가 작다 → 스튜던트 t 분포
- 일부 데이터가 전체적으로 큰 영향을 미친다 → 롱 테일 분포 (파레토 분포)
- 범주형 데이터의 독립성 검정이나 적합도 검정 → 카이 제곱 분포
- 결과가 두 개(성공 or 실패)만 나오는 상황 → 이항 분포
- 특정 시간, 공간에서 발생하는 사건 → 푸아송 분포
1. 모집단(population)과 표본(sample)의 차이에 대한 설명으로 옳은 것을 고르세요. - 1
1) 모집단은 연구 대상 전체를 의미하고, 표본은 모집단의 일부를 의미한다.
2) 모집단은 표본의 일부이며, 표본은 모집단 전체를 의미한다.
3) 모집단과 표본은 같은 의미를 가진다.
4) 모집단은 표본보다 항상 작다.
2. 어떤 표본의 평균이 50이고, 표본 표준편차가 10인 경우, 95% 신뢰구간을 구하세요. (표본 크기는 25로 가정)
- 95% 신뢰구간은 표본 평균 ± (1.96 * 표본 표준오차)로 계산됩니다.
- 표본 표준오차는 표준편차를 표본 크기의 제곱근으로 나눈 값입니다.
# (np.float64(45.78708470262267), np.float64(54.21291529737733))
3. 다음 중 정규분포에 해당하는 데이터의 분포를 나타내는 그래프의 모양은 무엇인가요? - 2
1) U자형
2) 종 모양
3) 지수 감소형
4) 선형
4. 정규분포에서 평균과 표준편차에 대한 설명으로 옳은 것을 고르세요. - 2
1) 평균은 분포의 중앙값과 항상 다르다.
2) 표준편차는 데이터의 퍼짐 정도를 나타낸다.
3) 평균이 커지면 분포는 좁아진다.
4) 표준편차가 작아지면 분포는 넓어진다.
5. 긴 꼬리 분포(Long Tail Distribution)의 특징으로 옳지 않은 것을 고르세요. - 3
1) 데이터의 대부분이 낮은 빈도 값을 갖는다.
2) 꼬리 부분에 많은 데이터가 분포되어 있다.
3) 꼬리가 길어질수록 정규분포에 가까워진다.
4) 일부 항목이 매우 높은 빈도 값을 가진다.
6. 스튜던트 t 분포를 사용하는 이유는 무엇인가요? - 1
1) 표본 크기가 작을 때 사용한다.
2) 모집단이 정규분포가 아닐 때 사용한다.
3) 모집단 표준편차를 알 때 사용한다.
4) 모집단 평균을 알 때 사용한다.
7. 카이제곱분포(Chi-Square Distribution)는 주로 어떤 분석에 사용되나요? - 3
1) 두 변수 간의 상관관계 분석
2) 평균 간의 차이 분석
3) 범주형 데이터의 독립성 검정
4) 연속형 데이터의 분포 분석
8. 동전 던지기를 10번 했을 때, 앞면이 6번 나올 확률을 구할 때 사용하는 분포는 무엇인가요? - 2
1) 정규분포
2) 이항분포
3) 푸아송분포
4) 카이제곱분포
9. 어느 병원에서 1시간 동안 평균 3명의 환자가 도착한다고 할 때, 1시간 동안 5명의 환자가 도착할 확률을 구할 때 사용하는 분포는 무엇인가요? - 3
1) 정규분포
2) 이항분포
3) 푸아송분포
4) 스튜던트 t 분포
데이터 분석과 통계 3주차
A/B 검정
# T-Statistic: -1.9173770811858641, P-value: 0.056629351191398676
scipy.stats.ttest_ind 함수는 독립표본 t-검정(Independent Samples t-test)을 수행하여 두 개의 독립된 집단 간 평균의 차이가 유의미한지 평가
두 집단의 데이터 배열을 입력으로 받아서 t-통계량과 p-값을 반환.
- t-통계량 (statistic) : t-검정 통계량. 두 집단 간 평균 차이의 크기와 방향을 나타냅니다.
- p-값 (pvalue)
- 귀무 가설이 참일 때, 현재 데이터보다 극단적인 결과가 나올 확률
- 이 값이 유의수준(α) 보다 작으면 귀무 가설 기각, 유의수준(α) 보다 크면 귀무 가설 채택
딜라이트룸 A/B 테스트 사례
당근마켓 A/B 테스트 사례
가설 검정
- 표본 데이터를 통해 모집단의 가설을 검증하는 과정
- 데이터가 특정 가설을 지지하는지 평가
- 귀무가설(H0)과 대립가설(H1)을 설정하고, 귀무가설을 기각할지를 결정
- 데이터 분석시 두가지 전략을 취할 수 있음
- 확증적 자료분석 : 미리 가설들을 먼저 세운 다음 가설을 검증해 나가는 분석
- 탐색적 자료분석(EDA) : 가설을 먼저 정하지 않고 데이터를 탐색해보면서 가설 후보들을 찾고 데이터의 특징을 찾는 것
- 귀무가설(H0)과 대립가설(H1) 설정
- 유의수준(α) 결정
- 검정통계량 계산
- p-값과 유의수준 비교
- 결론 도출
통계적 유의성
- 통계적 유의성은 결과가 우연히 발생한 것이 아니라 어떤 효과가 실제로 존재함을 나타내는 지표
- p값은 귀무 가설이 참일 경우 관찰된 통계치가 나올 확률을 의미
- 일반적으로 p값이 0.05 미만이면 결과를 통계적으로 유의하다고 판단
p-값
- 귀무가설이 참일 때, 관찰된 결과 이상으로 극단적인 결과가 나올 확률
- 일반적으로 p-값이 유의수준(α)보다 작으면 귀무가설을 기각
- 유의수준으로 많이 사용하는 값이 0.05
#
A 평균 효과: 49.55386194406602
B 평균 효과: 54.85838680204659
t-검정 통계량: -3.523543199579235
p-값: 0.000528750280071085
p-값: 0.000528750280071085
귀무가설을 기각합니다. 통계적으로 유의미한 차이가 있습니다.
t검정
- t검정은 두 집단 간의 평균 차이가 통계적으로 유의미한지 확인하는 검정 방법
- 독립표본 t검정과 대응표본 t검정으로 나뉨
독립표본 t검정 : 두 독립된 그룹의 평균을 비교
대응표본 t검정 : 동일한 그룹의 사전/사후 평균을 비교
# T-Statistic: -3.2147518011203, P-value: 0.002134688769676455
다중검정
- 여러 가설을 동시에 검정할 때 발생하는 문제
- 각 검정마다 유의수준을 조정하지 않으면 1종 오류(귀무가설이 참인데 기각하는 오류) 발생 확률이 증가
보정 방법
- 본페로니 보정, 튜키 보정, 던넷 보정, 윌리엄스 보정 등이 있음
- 가장 대표적이고 기본적인게 본페로니 보정
#
본페로니 보정된 유의 수준: 0.0167
검정 1: 유의미한 차이 발견 (p = 0.0000)
검정 2: 유의미한 차이 발견 (p = 0.0058)
검정 3: 유의미한 차이 없음 (p = 0.1461)
카이제곱검정
- 범주형 데이터의 표본 분포가 모집단 분포와 일치하는지 검정(적합도 검정), 두 범주형 변수 간의 독립성을 검정(독립성 검정)
적합도 검정
- 관찰된 분포와 기대된 분포가 일치하는지 검정
- p값이 높으면 데이터가 귀무 가설에 잘 맞음. 즉, 관찰된 데이터와 귀무 가설이 적합
- p값이 낮으면 데이터가 귀무 가설에 잘 맞지 않음. 즉, 관찰된 데이터와 귀무 가설이 부적합
독립성 검정
- 두 범주형 변수 간의 독립성을 검정
- p값이 높으면 두 변수 간의 관계가 연관성이 없음 → 독립성이 있음
- p값이 낮으면 두 변수 간의 관계가 연관성이 있음 → 독립성이 없음
#
적합도 검정 카이제곱 통계량: 2.0, p-값: 0.5724067044708798
독립성 검정 카이제곱 통계량: 0.0, p-값: 1.0
독립성 검정 카이제곱 통계량: 15.041666666666666, p-값: 0.00010516355403363098
scipy.stats.chisquare
카이제곱 적합도 검정을 수행하여 관찰된 빈도 분포가 기대된 빈도 분포와 일치하는지 평가
주로 단일 표본에 대해 관찰된 빈도가 특정 이론적 분포(예: 균등 분포)와 일치하는지 확인하는 데 사용
- chi2: 카이제곱 통계량.
- p: p-값. 관찰된 데이터가 귀무 가설 하에서 발생할 확률.
scipy.stats.chi2_contingency
카이제곱 검정을 수행하여 두 개 이상의 범주형 변수 간의 독립성을 검정.
관측 빈도를 담고 있는 교차표(contingency table)를 입력으로 받아 카이제곱 통계량, p-값, 자유도, 기대 빈도(expected frequencies)를 반환.
- chi2 : 카이제곱 통계량.
- p : p-값. 관측된 데이터가 귀무 가설 하에서 발생할 확률
- dof : 자유도. (행의 수 - 1) * (열의 수 - 1)
- expected : 기대 빈도. 행 합계와 열 합계를 사용하여 계산된 이론적 빈도
제 1종 오류
- 귀무가설이 참인데 기각하는 오류
- 잘못된 긍정을 의미 (아무런 영향이 없는데 영향이 있다고 하는 것)
- 위양성
- α를 경계로 귀무가설을 기각하기 때문에 제1종 오류가 α만큼 발생
- 따라서 유의수준(α)을 정함으로써 제 1종 오류 제어 가능
- 만약, 유의수준이 0.05라면 100번 중 5번 정도 일어날 수 있는 제 1종 오류는 감수하겠다는 것
제 2종 오류
- 귀무가설이 거짓인데 기각하지 않는 오류.
- 잘못된 부정을 의미 (영향이 있는데 영향이 없다고 하는 것)
- 위음성
- 제 2종 오류가 일어날 확률은 β로 정의.
- 제 2종 오류가 일어나지 않을 확률은 검정력(1-β)으로 정의.
- 하지만 이를 직접 통제할 수는 없음.
- 표본크기 n이 커질 수록 β가 작아짐.
- α와 β는 상충관계에 있어서 너무 낮은 α를 가지게 되면 β는 더욱 높아짐
1. 가설검정에서 사용되는 주요 개념 중 하나인 p-value의 의미를 설명하세요. - 2
1) p-value는 두 그룹 간의 평균 차이를 나타낸다.
2) p-value는 귀무가설이 참일 때, 관찰된 데이터 또는 더 극단적인 데이터가 나타날 확률이다.
3) p-value는 두 그룹 간의 표준편차를 나타낸다.
4) p-value는 실험 그룹의 크기를 나타낸다.
2. 가설검정에서 귀무가설(null hypothesis)과 대립가설(alternative hypothesis)의 차이에 대한 설명으로 옳은 것을 고르세요. - 2
1) 귀무가설은 연구자가 입증하고자 하는 주장이고, 대립가설은 현재 상태를 나타낸다.
2) 귀무가설은 현재 상태를 나타내며, 대립가설은 연구자가 입증하고자 하는 주장이다.
3) 귀무가설과 대립가설은 동일한 개념이다.
4) 귀무가설은 대립가설의 반대를 나타낸다.
3. 두 그룹의 평균이 서로 다른지 비교하기 위해 사용되는 t검정의 종류는 무엇인가요? - 1
1) 독립 표본 t검정
2) 대응 표본 t검정
3) 분산 분석
4) 카이제곱검정
4. 다중검정에서 발생할 수 있는 문제점은 무엇인가요? - 3
1) 표본의 크기가 작아진다.
2) 한 번의 검정에서 제 1종 오류가 발생할 확률이 감소한다.
3) 여러 번의 검정을 수행할 때, 전체 실험에서 제 1종 오류가 발생할 확률이 증가한다.
4) 한 번의 검정에서 제 2종 오류가 발생할 확률이 증가한다.
5. 카이제곱검정은 주로 어떤 데이터를 분석할 때 사용되나요? - 2
1) 연속형 데이터
2) 범주형 데이터
3) 비율 데이터
4) 순서형 데이터
6. 제 1종 오류(Type I error)와 제 2종 오류(Type II error)의 차이에 대한 설명으로 옳은 것을 고르세요. - 1
1) 제 1종 오류는 귀무가설이 참인데 기각하는 오류이고, 제 2종 오류는 대립가설이 참인데 기각하는 오류이다.
2) 제 1종 오류는 대립가설이 참인데 기각하는 오류이고, 제 2종 오류는 귀무가설이 참인데 기각하는 오류이다.
3) 제 1종 오류와 제 2종 오류는 동일한 개념이다.
4) 제 1종 오류는 표본 크기와 관련이 없고, 제 2종 오류는 표본 크기와 관련이 있다.
통계학 라이브세션 1회
QC 공정도와 통계의 관계
문제를 y값으로 잡고 가설을 x값으로 처리하여 가설을 여러가지 설정 -> 각각의 가설을 도맡아 따로따로 진행 -> 각각의 데이터 분석 시각화 결과를 공유, 추가분석, 공유 반복 -> 정리하여 결론
생산 제조분야에서 문제가 주어졌을때 어떤 모델을 사용할지 판단할 수 있어야 함.
데이터를 정확히 분류하는 것이 중요(데이터의 종류)
데이터 유형별 적절한 통계 기법, 시각화 기법이 달라짐
범주형, 수치형구분
전처리
날짜
수치형이 명목형으로 되었는지
로지스틱회귀모델
범주형(이진형)
Quiz. 사번은 수치형일까 범주형일까? - 범주형
제조 분석에서 중요한 것 중 하나는 공정/제품이 얼마나 안정적으로 움직이는가?
대표값과 산포도가 중요
'TIL(Today I Learned)' 카테고리의 다른 글
[2025/01/20]내일배움캠프 QA/QC 1기 - 23일차 (0) | 2025.01.20 |
---|---|
[2025/01/17]내일배움캠프 QA/QC 1기 - 22일차 (0) | 2025.01.17 |
[2025/01/15]내일배움캠프 QA/QC 1기 - 20일차 (0) | 2025.01.15 |
[2025/01/14]내일배움캠프 QA/QC 1기 - 19일차 (0) | 2025.01.14 |
[2025/01/13]내일배움캠프 QA/QC 1기 - 18일차 (0) | 2025.01.13 |