25.05.19 코딩 공부 시작

코딩 척척석박사 분들 피드백 환영합니다.

공대생이 코딩에서 살아남기

강의자료/데이터 전처리&시각화

3강. (06.02)

코딩 아가 2025. 6. 2. 20:52

Pandas  라이브러리 불러오기

import pandas as pd

데이터 인덱스 처리 방법

데이터 저장할 때
data.to_csv("tips_data.csv", index=False)
데이터 불러올 때
df=pd.read_csv("tips_data.csv", index_col=0)

인덱스란?

  • 데이터프레임(DataFrame) 또는 시리즈(Series)의 각 행 또는 각 요소에 대한 식별자
  • 고유성, 불변성, 조작 및 탐색, 정렬
데이터 저장할 때
data.to_csv("tips_data.csv", index=False)
데이터 불러올 때
df=pd.read_csv("tips_data.csv", index_col=0)

df.reset_index(drop=True)

데이터 전처리

컬럼이란?

  • 데이터프레임(DataFrame)의 세로 방향에 있는 데이터 = 열(또는 변수)
  • 라벨 = 고유한 이름
  • 시리즈(Series) 객체로 구성 (시리즈: 동일한 데이터 유형을 가진 1차원 배열)
컬럼 확인하기
df.columns
컬럼명 변경하기
df=df.rename(columns={'이름': 'Name'})
df.columns=['Name','Age','Gender']
컬럼 추가하기
df['스포츠'] = ['축구', '농구', '야구']
컬럼 삭제하기
del df['스포츠']

데이터 확인

 
N행까지 보여줌
.head()
전체 정보: 컬럼, 결측치, 타입
.info()
df['컬럼'].dtype()                   #해당 컬럼 정보
df.dtypes                           #해당 컬럼들 정보
df['컬럼'].astype(타입)              #타입 바꾸기
기초통계량(숫자 값)
.describe()
결측치 확인
.isnull().sum()
.isna()                             #결측치 존재시: True
결측치 제거하기
.dropna()
중복데이터 확인
.duplicated
중복데이터 제거
.drop_duplicated

데이터 선택

인덱스로 데이터 선택
.iloc[행, 열]                          #[:,:]: 전체 가져오기
이름으로 데이터 선택
.loc['행이름','컬럼명']
컬럼 불러오기
[['컬럼명1', '컬럼명2']]

'강의자료 > 데이터 전처리&시각화' 카테고리의 다른 글

4강. (06.04)  (0) 2025.06.04
2강. (06.02)  (0) 2025.06.02
1강. (06.02)  (1) 2025.06.02