TIL(Today I Learned)

[2025/01/15]내일배움캠프 QA/QC 1기 - 20일차

essay2892 2025. 1. 15. 20:28

코드카타(https://essay2892.tistory.com/68)

 

커리어데이 - 기초 직업 상담 진행

 


데이터 분석과 통계 1주차

데이터를 분석하고 이를 바탕으로 결정을 내릴 수 있다.

  • 데이터 분석에서 통계는 데이터를 이해하고 해석하는 데 중요한 역할
  • 데이터를 요약하고 패턴을 발견할 수 있음
  • 추론을 통해 결론을 도출 
  • 데이터 기반의 의사결정
  • 기업이 보다 현명한 결정을 내리고 수익을 창출하기 위함

기술통계 : 데이터를 요약하고 설명하는 통계 방법

 - 주로 평균, 중앙값, 분산, 표준편차 등을 사용

 - 데이터를 특정 대표값으로 요약

 - 데이터에 대한 대략적인 특징을 간단하고 쉽게 알 수 있음

 - 단, 데이터 중 이상치가 항상 존재할 수 있고 데이터의 모든 부분을 확인할 수 있는 것은 아님

 

추론통계 : 표본 데이터를 통해 모집단의 특성을 추정하고 가설을 검정하는 통계 방법

 - 주로 신뢰구간, 가설검정 등을 사용

 - 데이터의 일부로 데이터 전체를 추정

더보기
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
 
data = [85, 90, 78, 92, 88, 76, 95, 89, 84, 91]
mean = np.mean(data)
median = np.median(data)

print(f"평균: {mean}, 중앙값: {median}")
# 평균: 86.8, 중앙값: 88.5

 

variance = np.var(data)
std_dev = np.std(data)
data_range = np.max(data) - np.min(data)

print(f"분산: {variance}, 표준편차: {std_dev}, 범위: {data_range}")

# 분산: 33.36, 표준편차: 5.775811631277461, 범위: 19

 

히스토그램, Box plot

 

이진 데이터, 범주 데이터

 - 최빈값(개수가 제일 많은 값)을 주로 사용

 - 파이그림과 막대 그래프는 이진 데이터와 범주 데이터의 분포를 표현하는 대표적 방법

 

상관관계

 - 두 변수 간의 관계를 측정하는 방법

 - -1이나 1에 가까워지면 강력한 상관관계

 - 0.5나 -0.5를 가지면 중간정도의 상관관계

 - 0에 가까울 수록 무관계

 - 상관관계는 두 변수 간의 관계를 나타내며, 인과관계는 한 변수가 다른 변수에 미치는 영향을 나타냄

 - 인과관계는 상관관계와는 다르게 원인, 결과가 분명해야 함

 

두 개 이상의 변수 탐색(다변량)

data = {'TV': [230.1, 44.5, 17.2, 151.5, 180.8],
        'Radio': [37.8, 39.3, 45.9, 41.3, 10.8],
        'Newspaper': [69.2, 45.1, 69.3, 58.5, 58.4],
        'Sales': [22.1, 10.4, 9.3, 18.5, 12.9]}
df = pd.DataFrame(data)

sns.pairplot(df)
plt.show()

df.corr()
#
더보기

1. 데이터 분석에서 통계가 중요한 이유는 무엇인가요? 다음 보기 중에서 옳지 않은 것을 고르세요.

 1) 통계는 데이터를 이해하고 해석하는 데 도움을 준다.

 2) 통계는 데이터에서 패턴을 발견하고 미래를 예측하는 도구를 제공한다.

 3) 통계는 모든 데이터 분석 결과가 항상 정확하고 확실하다는 것을 보장한다.

 4) 통계는 복잡한 데이터를 간단한 요약 정보로 변환할 수 있다.

 

2. 다음 중 기술통계(Descriptive Statistics)에 해당하는 것은 무엇인가요?

 1) 모집단의 평균을 추정하는 것

 2) 데이터의 중앙값을 계산하는 것

 3) 표본을 통해 모집단의 특성을 추론하는 것

 4) 가설을 검증하는 것

 

3. 다음 중 추론통계(Inferential Statistics)에 해당하는 것은 무엇인가요?

 1) 데이터의 범위를 계산하는 것

 2) 데이터의 분산을 계산하는 것

 3) 표본을 기반으로 모집단의 평균을 추정하는 것

 4) 데이터의 최빈값을 계산하는 것

 

4. 어느 학교의 학생들 10명의 수학 점수는 다음과 같습니다: 78, 82, 85, 88, 90, 92, 94, 96, 98, 100. 이 데이터의 평균을 구하세요.

 

5. 4번 문제의 학생 수학 점수의 중앙값을 구하세요.

 

6. 4번 문제의 학생 수학 점수 데이터의 범위(Range)를 구하세요.

 

7. 학생들의 수학 점수와 영어 점수가 각각 다음과 같을 때, 두 변수 간의 상관관계가 양의 상관관계인지, 음의 상관관계인지, 상관관계가 없는지 설명하고 그 이유를 얘기하세요.

수학 점수: 78, 82, 85, 88, 90, 92, 94, 96, 98, 100.

영어 점수: 70, 75, 80, 85, 85, 90, 90, 95, 95, 100.

 

8. 다음 중 인과관계(Causation)와 상관관계(Correlation)의 차이에 대한 설명으로 옳은 것은 무엇인가요?

 1) 상관관계는 두 변수 간의 원인과 결과를 나타내고, 인과관계는 단순한 관계를 나타낸다.

 2) 인과관계는 두 변수 간의 원인과 결과를 나타내고, 상관관계는 두 변수 간의 관계가 있지만 원인과 결과를 나타내지 않는다.

 3) 상관관계와 인과관계는 동일한 개념이다.

 4) 인과관계는 두 변수 간의 단순한 관계를 나타내고, 상관관계는 두 변수 간의 원인과 결과를 나타낸다.