전처리 & 시각화 3주차
#
![](https://blog.kakaocdn.net/dn/xKhh3/btsLBWK9BxZ/8A3SJmbFSVyY7xCypb9ei0/img.png)
#
![](https://blog.kakaocdn.net/dn/bFdey3/btsLAb3PVbd/Ol0zzQVtUHjy63y0GPhiDk/img.png)
#
![](https://blog.kakaocdn.net/dn/coXhHp/btsLBsjJ8U7/fl6TGzmWZTZy3c33pCOBq1/img.png)
#
![](https://blog.kakaocdn.net/dn/UWyYG/btsLDga6wCW/tUfhUrlpkMmBlt26i8UCvk/img.png)
#
![](https://blog.kakaocdn.net/dn/bJocB8/btsLCEQ2dd9/L9bbeUVbANYRGe2hmHOdMk/img.png)
#
![](https://blog.kakaocdn.net/dn/bwnNuT/btsLBWRXj7J/xC0cVWKNk2FRykceKWJE9K/img.png)
#
![](https://blog.kakaocdn.net/dn/cKbKiH/btsLC07nCBl/wFLqSVwAQi5uL4nS0GxVUk/img.png)
#
![](https://blog.kakaocdn.net/dn/b1LOMm/btsLC4BIHTL/1oae81Pdbj4SS2kC36aDHk/img.png)
#
![](https://blog.kakaocdn.net/dn/kUghw/btsLC4V3lCP/ma25sEdjMTF8pw05bFWxlK/img.png)
#
![](https://blog.kakaocdn.net/dn/cJAAHd/btsLBuhv7ID/FR14KqwrkXmXOB1kvXabc0/img.png)
#
![](https://blog.kakaocdn.net/dn/cyglVb/btsLBImjvfp/XjpszuvBBnsySH8wifNI1k/img.png)
#
![](https://blog.kakaocdn.net/dn/b4XdnJ/btsLA5vhapZ/zNKNviKUlwcW8brKucpms1/img.png)
#
![](https://blog.kakaocdn.net/dn/nAkGN/btsLBkscrrR/aKA9LdhNksKwt8JqsniQO0/img.png)
concat() : 데이터프레임을 위아래로 혹은 좌우로 연결
axis: 연결하고자 하는 축(방향)을 지정(기본값 0 - 위아래로 연결). 1로 설정하면 좌우로 연결.
ignore_index: 기본값은 False, 인덱스를 유지. True로 설정하면 새로운 인덱스를 생성.
reset_index(drop=True)도 인덱스 새로 생성
concat([df1, df2, df3 ... ], axis = 0).reset_index(drop = True)
결측치는 NaN으로 나옴
merge() : SQL의 Join과 유사한 기능. 두 개 이상의 데이터프레임에서 공통된 열이나 인덱스를 기준으로 데이터를 병합할 때 활용
데이터프레임의 순서가 중요
on : 기준이 될 컬럼 지정
left_on, right_on: 왼쪽 데이터프레임과 오른쪽 데이터프레임에서 병합할 열 이름이 다른 경우에 사용
how : 병합 방법을 나타내는 매개변수. 기본값은 inner
- 'inner': 공통된 키(열)를 기준으로 교집합
- 'outer': 공통된 키를 기준으로 합집합
- 'left': 왼쪽 데이터프레임의 모든 행을 포함하고 오른쪽 데이터프레임은 공통된 키에 해당하는 행만 포함
- 'right': 오른쪽 데이터프레임의 모든 행을 포함하고 왼쪽 데이터프레임은 공통된 키에 해당하는 행만 포함
#
![](https://blog.kakaocdn.net/dn/SLGJG/btsLCJdxbGo/YuqKRgGSvyrdxayZrVUIk0/img.png)
#
![](https://blog.kakaocdn.net/dn/n2Hps/btsLAdAxviv/NKORa1Kfp9iJ9EOICUM1xK/img.png)
#
![](https://blog.kakaocdn.net/dn/bod4al/btsLCogAcJV/Ud6cBIekpRnRIiHd7VaPZ1/img.png)
#
![](https://blog.kakaocdn.net/dn/cawyDW/btsLBw61xC1/uaTflirH7B9ihBVlkhau20/img.png)
.first()
.min()
.sum() 등등
#
![](https://blog.kakaocdn.net/dn/l98t3/btsLBi2dbvj/Hqxll8JjWKyjWeTPk4Qvy1/img.png)
#
![](https://blog.kakaocdn.net/dn/L7N21/btsLBY3jhAp/9To1Y6T9fwSIBtq1mcS2EK/img.png)
#
![](https://blog.kakaocdn.net/dn/caJB2U/btsLDmWtrP0/Jr63oViu7sBrWOOKolxC61/img.png)
#
![](https://blog.kakaocdn.net/dn/v34yf/btsLCtorkUT/FK56CdZfaF2fl5uH7JDHG1/img.png)
#
![](https://blog.kakaocdn.net/dn/nqJKk/btsLCEQ3dsg/LpBreTy3s0cXKT860qK2m1/img.png)
#
![](https://blog.kakaocdn.net/dn/bTXtXg/btsLABg1CAu/cyjOKIaKR4Y9alCzZKzxRk/img.png)
ascending 미작성시 기본값은 오름차순(True)
#
![](https://blog.kakaocdn.net/dn/qlqpv/btsLDxjnUk3/K1L4bliwyn3Nj9PzBaIDe1/img.png)
#
![](https://blog.kakaocdn.net/dn/yzOaX/btsLz8MNyAn/lirmoIqGNqzqPHIAZavmak/img.png)
pickle : python 의 변수, 함수, 객체를 파일로 저장하고 불러올 수 있는 라이브러리. binary형태로 저장되기 때문에 용량이 매우 작음
#
![](https://blog.kakaocdn.net/dn/l3WmL/btsLz78aO5V/B7wHv68uUPbkCgBlRuAX0k/img.png)
1. user_purchase_data.csv 파일에는 결측치가 포함되어 있습니다. 모든 결측치를 확인하고, 결측치가 있는 행을 제거하세요.
#
![](https://blog.kakaocdn.net/dn/biOKQ6/btsLBkMxFcy/qBfWwxFZAEK4vQe18SgEkK/img.png)
#
![](https://blog.kakaocdn.net/dn/Lwxnc/btsLBjUoggk/7PNkiSYtL2rrIdapp4PNXK/img.png)
2. purchase_date 컬럼의 데이터 타입을 문자열에서 datetime으로 변환하고, total_spent 컬럼의 데이터 타입을 정수로 변환하세요.
#
![](https://blog.kakaocdn.net/dn/lMq1a/btsLC0M69q8/6ceXhONo4jrGEBzAoSRij0/img.png)
![](https://blog.kakaocdn.net/dn/srp80/btsLBesvnHG/blFsHIOGF8Lo9OuBQ2po4K/img.png)
3. 중복된 구매 데이터를 확인하고 제거하세요. 중복의 기준은 user_id, purchase_date, product_id가 동일한 행으로 합니다.
4. price 컬럼에 이상치가 존재합니다. IQR (Interquartile Range) 방법을 사용하여 이상치를 찾아 제거하세요.
5. total_spent 컬럼을 Min-Max 정규화를 사용하여 0과 1 사이의 값으로 변환하세요.
3, 4, 5번은 아직 모르는 내용
4주차 강의까지 듣고 재도전
3주차 실습
데이터 홀로서기
데이터 전처리 문제
내일 다 풀기
'TIL(Today I Learned)' 카테고리의 다른 글
[2025/01/03]내일배움캠프 QA/QC 1기 - 13일차 (0) | 2025.01.03 |
---|---|
[2025/01/02]내일배움캠프 QA/QC 1기 - 12일차 (0) | 2025.01.02 |
[2024/12/31]내일배움캠프 QA/QC 1기 - 11일차 (0) | 2024.12.31 |
[2024/12/30]내일배움캠프 QA/QC 1기 - 10일차 (0) | 2024.12.30 |
[2024/12/27]내일배움캠프 QA/QC 1기 - 9일차 (4) | 2024.12.27 |