Pandas 라이브러리 불러오기
import pandas as pd
데이터 인덱스 처리 방법
데이터 저장할 때
data.to_csv("tips_data.csv", index=False)
데이터 불러올 때
df=pd.read_csv("tips_data.csv", index_col=0)
인덱스란?
- 데이터프레임(DataFrame) 또는 시리즈(Series)의 각 행 또는 각 요소에 대한 식별자
- 고유성, 불변성, 조작 및 탐색, 정렬
데이터 저장할 때
data.to_csv("tips_data.csv", index=False)
데이터 불러올 때
df=pd.read_csv("tips_data.csv", index_col=0)
df.reset_index(drop=True)
데이터 전처리
컬럼이란?
- 데이터프레임(DataFrame)의 세로 방향에 있는 데이터 = 열(또는 변수)
- 라벨 = 고유한 이름
- 시리즈(Series) 객체로 구성 (시리즈: 동일한 데이터 유형을 가진 1차원 배열)
컬럼 확인하기
df.columns
컬럼명 변경하기
df=df.rename(columns={'이름': 'Name'})
df.columns=['Name','Age','Gender']
컬럼 추가하기
df['스포츠'] = ['축구', '농구', '야구']
컬럼 삭제하기
del df['스포츠']
데이터 확인
N행까지 보여줌
.head()
전체 정보: 컬럼, 결측치, 타입
.info()
df['컬럼'].dtype() #해당 컬럼 정보
df.dtypes #해당 컬럼들 정보
df['컬럼'].astype(타입) #타입 바꾸기
기초통계량(숫자 값)
.describe()
결측치 확인
.isnull().sum()
.isna() #결측치 존재시: True
결측치 제거하기
.dropna()
중복데이터 확인
.duplicated
중복데이터 제거
.drop_duplicated
데이터 선택
인덱스로 데이터 선택
.iloc[행, 열] #[:,:]: 전체 가져오기
이름으로 데이터 선택
.loc['행이름','컬럼명']
컬럼 불러오기
[['컬럼명1', '컬럼명2']]