3강. (06.02)

강의자료/데이터 전처리&시각화

3강. (06.02)

코딩 아가 2025. 6. 2. 20:52

Pandas 라이브러리 불러오기

import pandas as pd

데이터 인덱스 처리 방법

데이터 저장할 때
data.to_csv("tips_data.csv", index=False)
데이터 불러올 때
df=pd.read_csv("tips_data.csv", index_col=0)

인덱스란?

데이터프레임(DataFrame) 또는 시리즈(Series)의 각 행 또는 각 요소에 대한 식별자
고유성, 불변성, 조작 및 탐색, 정렬

데이터 저장할 때
data.to_csv("tips_data.csv", index=False)
데이터 불러올 때
df=pd.read_csv("tips_data.csv", index_col=0)

df.reset_index(drop=True)

데이터 전처리

컬럼이란?

데이터프레임(DataFrame)의 세로 방향에 있는 데이터 = 열(또는 변수)
라벨 = 고유한 이름
시리즈(Series) 객체로 구성 (시리즈: 동일한 데이터 유형을 가진 1차원 배열)

컬럼 확인하기
df.columns
컬럼명 변경하기
df=df.rename(columns={'이름': 'Name'})
df.columns=['Name','Age','Gender']
컬럼 추가하기
df['스포츠'] = ['축구', '농구', '야구']
컬럼 삭제하기
del df['스포츠']

데이터 확인

N행까지 보여줌
.head()
전체 정보: 컬럼, 결측치, 타입
.info()
df['컬럼'].dtype()                   #해당 컬럼 정보
df.dtypes                           #해당 컬럼들 정보
df['컬럼'].astype(타입)              #타입 바꾸기
기초통계량(숫자 값)
.describe()
결측치 확인
.isnull().sum()
.isna()                             #결측치 존재시: True
결측치 제거하기
.dropna()
중복데이터 확인
.duplicated
중복데이터 제거
.drop_duplicated

데이터 선택

인덱스로 데이터 선택
.iloc[행, 열]                          #[:,:]: 전체 가져오기
이름으로 데이터 선택
.loc['행이름','컬럼명']
컬럼 불러오기
[['컬럼명1', '컬럼명2']]

'강의자료 > 데이터 전처리&시각화' 카테고리의 다른 글

4강. (06.04) (0)	2025.06.04
2강. (06.02) (0)	2025.06.02
1강. (06.02) (1)	2025.06.02

현재글3강. (06.02)

코딩 아가의 성장과정

QAQC분야 데이터 분석가로 취업하기 위한 한걸음

ChatGPT, python3, 머신러닝, 상관관계, 시계열데이터, Python, Til, SQL, xgboost, 내일배움캠프, 아티클스터디, 챌린지, 랜덤포레스트, 테블로, 태블로, 코딩, 데이터분석, 코드카타, tableau, 파이썬,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

코딩 아가의 성장과정

3강. (06.02)

Pandas 라이브러리 불러오기

데이터 인덱스 처리 방법

인덱스란?

데이터 전처리

컬럼이란?

데이터 확인

데이터 선택

'강의자료 > 데이터 전처리&시각화' 카테고리의 다른 글

'강의자료/데이터 전처리&시각화'의 다른글

티스토리툴바

3강. (06.02)

Pandas 라이브러리 불러오기

데이터 인덱스 처리 방법

인덱스란?

데이터 전처리

컬럼이란?

데이터 확인

데이터 선택

'강의자료 > 데이터 전처리&시각화' 카테고리의 다른 글

'강의자료/데이터 전처리&시각화'의 다른글

관련글

티스토리툴바