25.05.19 코딩 공부 시작

코딩 척척석박사 분들 피드백 환영합니다.

공대생이 코딩에서 살아남기

강의자료/데이터 분석 종합반

1강. (05.19)

코딩 아가 2025. 5. 19. 11:50

데이터 분석이란?

여러분이 “하고자 하는 바에 대한 명확한 근거 ” 를 줄 수 있게 도와주는 도구

순서

  1. 문제 정의 및 가설 설정하기
  2. 데이터 분석 기본 세팅 하기
  3. 데이터 분석하기
  4. 분석 결과 시각화 하기
  5. 최종 결론 내기

상관관계

음수, 양수와 상관 없이 숫자가 클수록 상관관계가 큰편

  • 양수일 경우 : 한 변수가 증가함에 따라 다른 변수도 증가하는 경향을 보이는 것
  • 음수일 경우 : 한 변수의 수치가 증가할 때 다른 변수는 감소하는 경향을 보이는 것

1. 엑셀 데이터 분석

ex. 스프레드시트(XLMiner Analysis ToolPak)

단점 및 파이썬으로 넘어가는 이유

  • 엑셀은 대용량 데이터 분석의 시간이 많이 걸리고 어렵다.
  • 점점 고도화된 분석 >> 파이썬
  • 엑셀 문법을 배우는 것 보다 파이썬 문법이 더 쉽다.

2. 파이썬 데이터 분석 

ex. pandas, matplotlib

파이썬이란?

  • 직관적인 언어로 더 다양한 시각화가 가능
  • 기계를 학습화해 데이터 패턴 찾기 쉬움
  • 파이썬으로 보다 쉽게 비어있는 데이터 처리 가능

2가지 라이브러리

라이브러리란?

  • 데이터 분석시, 특정한 동작을 할수 있게 하는 코드 모음집
  • 특정 기능을 하나의 라이브러리로 만들어 코드 작성의 효율성 상승

1. pandas: 데이터 분석

데이터를 여러가지 방법으로 다루어 원하는 결과를 도출하게 도와주는 도구

  • 엑셀 뿐만 아니라, 여러 종류의 형태의 데이터 파일을 읽어 낼 수 있다.
  • 우리가 필요한 데이터를 자르고, 붙일 수 있다.
  • 결함이 있는 데이터를 도려 낼수 있다.(결측치 제거)
  • 원하는 데이터를 뽑아 내기 위한 필터링 작업도 가능하다.

2. matplotlib: 데이터 시각화

숫자로만 이뤄진 데이터를 한 눈에 알아 보기 쉽게 도와주는 도구

 

숙제

MISSION: 피마 인디언 당뇨병 데이터 세트를 이용해 당뇨병 발생에 가장 많이 영향을 미치는 요소를 찾기

1) 문제 정의 및 가설 설정하기

당뇨병 발병에 가장 큰 영향을 미치는 요소는 글루코스(혈당) 수치이다.

2) 데이터 분석 기본 세팅 하기

(1) 데이터 가져오기 (2)공측란=결측치 제거


3) 데이터 분석하기

(1)분석도구 활성화 (2)Correlation=상관계수분석 (3)분석결과

4) 분석 결과 시각화 하기

5) 최종 결론 내리기

데이터 분석 결과, 당뇨병 발병에 가장 큰 영향을 미치는 요소는 “ Glucose “ 입니다.

가설이 옳습니다.

학습하면서 겪었던 문제점이나 에러

  1. 수업중 했던 예시 문제와 다르게 A1부터 요인 "Pregnancies" 이 적혀있었기에 분석도구에 A1부터 작성해야 탈락되는 요인이 없고 정확한 분석이 되었다.
  2. 그래프에 '행/열 전환'까지 체크해야 위와 같은 그래프를 얻을 수 있었다.

'강의자료 > 데이터 분석 종합반' 카테고리의 다른 글

5강. (05.22) <히트맵, cut>  (2) 2025.05.22
4강. (05.21)  (0) 2025.05.21
3강. (05.20)  (6) 2025.05.20
2강. (05.19)  (0) 2025.05.20