
데이터 분석이란?
여러분이 “하고자 하는 바에 대한 명확한 근거 ” 를 줄 수 있게 도와주는 도구
순서
- 문제 정의 및 가설 설정하기
- 데이터 분석 기본 세팅 하기
- 데이터 분석하기
- 분석 결과 시각화 하기
- 최종 결론 내기
상관관계
음수, 양수와 상관 없이 숫자가 클수록 상관관계가 큰편
- 양수일 경우 : 한 변수가 증가함에 따라 다른 변수도 증가하는 경향을 보이는 것
- 음수일 경우 : 한 변수의 수치가 증가할 때 다른 변수는 감소하는 경향을 보이는 것
1. 엑셀 데이터 분석
ex. 스프레드시트(XLMiner Analysis ToolPak)

단점 및 파이썬으로 넘어가는 이유
- 엑셀은 대용량 데이터 분석의 시간이 많이 걸리고 어렵다.
- 점점 고도화된 분석 >> 파이썬
- 엑셀 문법을 배우는 것 보다 파이썬 문법이 더 쉽다.
2. 파이썬 데이터 분석
ex. pandas, matplotlib
파이썬이란?
- 직관적인 언어로 더 다양한 시각화가 가능
- 기계를 학습화해 데이터 패턴 찾기 쉬움
- 파이썬으로 보다 쉽게 비어있는 데이터 처리 가능
2가지 라이브러리
라이브러리란?
- 데이터 분석시, 특정한 동작을 할수 있게 하는 코드 모음집
- 특정 기능을 하나의 라이브러리로 만들어 코드 작성의 효율성 상승
1. pandas: 데이터 분석
데이터를 여러가지 방법으로 다루어 원하는 결과를 도출하게 도와주는 도구
- 엑셀 뿐만 아니라, 여러 종류의 형태의 데이터 파일을 읽어 낼 수 있다.
- 우리가 필요한 데이터를 자르고, 붙일 수 있다.
- 결함이 있는 데이터를 도려 낼수 있다.(결측치 제거)
- 원하는 데이터를 뽑아 내기 위한 필터링 작업도 가능하다.
2. matplotlib: 데이터 시각화
숫자로만 이뤄진 데이터를 한 눈에 알아 보기 쉽게 도와주는 도구

숙제
MISSION: 피마 인디언 당뇨병 데이터 세트를 이용해 당뇨병 발생에 가장 많이 영향을 미치는 요소를 찾기
1) 문제 정의 및 가설 설정하기
당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당) 수치이다.
2) 데이터 분석 기본 세팅 하기


3) 데이터 분석하기



4) 분석 결과 시각화 하기




5) 최종 결론 내리기
데이터 분석 결과, 당뇨병 발병에 가장 큰 영향을 미치는 요소는 “ Glucose “ 입니다.
가설이 옳습니다.
학습하면서 겪었던 문제점이나 에러
- 수업중 했던 예시 문제와 다르게 A1부터 요인 "Pregnancies" 이 적혀있었기에 분석도구에 A1부터 작성해야 탈락되는 요인이 없고 정확한 분석이 되었다.
- 그래프에 '행/열 전환'까지 체크해야 위와 같은 그래프를 얻을 수 있었다.
'강의자료 > 데이터 분석 종합반' 카테고리의 다른 글
| 5강. (05.22) <히트맵, cut> (2) | 2025.05.22 |
|---|---|
| 4강. (05.21) (0) | 2025.05.21 |
| 3강. (05.20) (6) | 2025.05.20 |
| 2강. (05.19) (0) | 2025.05.20 |