2강. (05.19)

강의자료/데이터 분석 종합반

2강. (05.19)

코딩 아가 2025. 5. 20. 10:11

파이썬 문법 주의사항

구글 사용
특수기호를 잘 활용하: "검색어 + 특정기술", "검색어 - 특정기술"
영어로 검색

Colab으로 파이썬과 친해지기

Colab이란?

온라인에서 파이썬 데이터 분석을 학습할 수 있는 환경을 구글에서 제공

파이썬 문법

변수란?

데이터를 담는 컨테이너
원하는 데이터를 쉽게 찾아 사용 가능

변수 선언하기: 원하는 변수 이름 = 변수에 넣을 데이터
변수 호출하기: print(변수이름)

리스트란?

하나하나 변수 지정을 하기에는 관리에 어려움이 있어서 리스트 사용
순서를 기억하여 저장
인덱스(데이터들의 번호, 순서0: 0부터 시작

변수이름_list = [데이터0, 데이터1, ...]

딕셔너리란?

”이름”과 “이름에 해당하는 값”이 쌍으로 이뤄진 데이터들의 모음집
각 변수이름에 데이터를 붙여 기억하여 저장

딕셔너 = {'변수이름0' : 데이터0, '변수이름1' : 데이터1, ... }

Pandas로 데이터 분석

1) Pandas 라이브러리 사용 선언하기

import pandas as pd

2) 데이터 가져오기

titanic = pd.read_table('train.csv',sep=',')

3) 데이터 확인 및 표 읽기

titanic.head(100) #데이터 제대로 들어갔는지 확인기(생략가능)

print(titanic.isnull().sum()) #Null(공백) 데이터 파악하기(생략가능)

4) 공백 데이터 제거하기

titanic = titanic.dropna() #공백 데이터 제거하기

print(titanic.isnull().sum()) #다시 Null(공백) 데이터 파악하기(생략가능)

5) 데이터 분석하기(상관관계)

#피어슨 상관계수란? 결정계수(r제곱)로 계산하며 X로부터 Y예측 가능

corr=titanic.corr(method='pearson')

corr #(생략가능)

corr = corr[corr.Survived !=1] #생존과 생존의 상관관계=1

corr

Matplotlib로 시각화 하기

1) Matplotlib 사용 선언하기

import matplotlib.pyplot as plt

2) 상관계수 그래프 그리기

corr.plot()

corr['Survived'].plot() #생존률과의 상관관계

corr = corr.drop(['PassengerId'], axis ='rows') #필요없는 정보 삭제

corr['Survived'].plot()

corr['Survived'].plot.bar() #막대그래프로 변경하기

[한 걸음 더]나이대별로 생존율과의 관계 정확히 파해쳐보기

import pandas as pd

import matplotlib.pyplot as plt

#Numpy란? 데이터 연산을 도와주는 라이브러리

import numpy as np

#Seaborn이란? Matplotlib보다 다양한 그래프로 시각화 가능

import seaborn as sns

titanic = pd.read_table('train.csv',sep=',')

titanic = titanic.dropna()

#데이터 요약하기: 총 데이터수, 평균, 표준편차 등 보기 가능

titanic.describe()

#hist(): 나이별로 히스토그램 구하기 titanic['Age'].hist(bins=40,figsize=(18,8),grid=True

#or

#나이별 구분 및 각 나이별 생존율 확인 하기

titanic['Age_cat'] = pd.cut(titanic['Age'],bins=[0,3,7,15,30,60,100],include_lowest=True,labels=['baby','children','teenage','young','adult','old'])

#groupby(): 그룹 묶기 / mean(): 평균값 구하기

titanic.groupby('Age_cat').mean()

#그래프 크기 설정

plt.figure(figsize=(14,5))

#바 그래프 그리기(x축 = Age_cat, y축 = Survived)

sns.barplot(x='Age_cat',y='Survived',data=titanic)

#그래프 나타내기

plt.show()

결론: baby와 children 생존률이 다른 나이대보다 높은 것을 확인할 수 있다

숙제

MISSION: 피마 인디언 당뇨병 데이터 세트를 이용해 당뇨병 발생에 가장 많이 영향을 미치는 요소를 찾기

1) 문제 정의 및 가설 설정하기

당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당) 수치이다.

2) 데이터 분석 기본 세팅 하기 + 분석하기

import pandas as pd

diabetes = pd.read_table('diabetes.csv',sep=',')

diabetes.head()

diabetes = diabetes.dropna()

print(diabetes.isnull().sum())

corr=diabetes.corr(method='pearson')

corr = corr[corr.Outcome !=1]

corr

3) 분석 결과 시각화 하기

import matplotlib.pyplot as plt

corr['Outcome'].plot()

corr['Outcome'].plot.bar()

4) 최종 결론 내리기

데이터 분석 결과, 당뇨병 발병에 가장 큰 영향을 미치는 요소는 “ Glucose “ 입니다.

가설이 옳습니다.

학습하면서 겪었던 문제점이나 에러

[한 걸음 더]부분에서 새로운 용어들이 많이 나와 이해하는데 약간의 어려움이있었다.

'강의자료 > 데이터 분석 종합반' 카테고리의 다른 글

5강. (05.22) <히트맵, cut> (2)	2025.05.22
4강. (05.21) (0)	2025.05.21
3강. (05.20) (6)	2025.05.20
1강. (05.19) (1)	2025.05.19

현재글2강. (05.19)

코딩 아가의 성장과정

QAQC분야 데이터 분석가로 취업하기 위한 한걸음

상관관계, Til, 코딩, SQL, xgboost, 시계열데이터, 태블로, tableau, 아티클스터디, 데이터분석, Python, 테블로, 내일배움캠프, ChatGPT, 챌린지, python3, 파이썬, 머신러닝, 랜덤포레스트, 코드카타,

Today :
Yesterday :

코딩 아가의 성장과정

2강. (05.19)

Colab으로 파이썬과 친해지기

파이썬 문법

변수란?

리스트란?

딕셔너리란?

Pandas로 데이터 분석

1) Pandas 라이브러리 사용 선언하기

2) 데이터 가져오기

3) 데이터 확인 및 표 읽기

4) 공백 데이터 제거하기

5) 데이터 분석하기(상관관계)

Matplotlib로 시각화 하기

1) Matplotlib 사용 선언하기

2) 상관계수 그래프 그리기

[한 걸음 더]나이대별로 생존율과의 관계 정확히 파해쳐보기

숙제

MISSION: 피마 인디언 당뇨병 데이터 세트를 이용해 당뇨병 발생에 가장 많이 영향을 미치는 요소를 찾기

1) 문제 정의 및 가설 설정하기

2) 데이터 분석 기본 세팅 하기 + 분석하기

3) 분석 결과 시각화 하기

4) 최종 결론 내리기

학습하면서 겪었던 문제점이나 에러

'강의자료 > 데이터 분석 종합반' 카테고리의 다른 글

'강의자료/데이터 분석 종합반'의 다른글

티스토리툴바

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

2강. (05.19)

Colab으로 파이썬과 친해지기

파이썬 문법

변수란?

리스트란?

딕셔너리란?

Pandas로 데이터 분석

1) Pandas 라이브러리 사용 선언하기

2) 데이터 가져오기

3) 데이터 확인 및 표 읽기

4) 공백 데이터 제거하기

5) 데이터 분석하기(상관관계)

Matplotlib로 시각화 하기

1) Matplotlib 사용 선언하기

2) 상관계수 그래프 그리기

[한 걸음 더]나이대별로 생존율과의 관계 정확히 파해쳐보기

숙제

MISSION: 피마 인디언 당뇨병 데이터 세트를 이용해 당뇨병 발생에 가장 많이 영향을 미치는 요소를 찾기

1) 문제 정의 및 가설 설정하기

2) 데이터 분석 기본 세팅 하기 + 분석하기

3) 분석 결과 시각화 하기

4) 최종 결론 내리기

학습하면서 겪었던 문제점이나 에러

'강의자료 > 데이터 분석 종합반' 카테고리의 다른 글

'강의자료/데이터 분석 종합반'의 다른글

관련글

티스토리툴바