데이터 분석 입문 주차

250407_Data_6기 TIL 35일차 - 통계학 기초 5주차

juneoh20 2025. 4. 7. 19:43
  • - 통계학 기초 5주차
  • - 10분 판다스
  • - QCC 복습 / 지난 주 복습
  • - 통계학 라이브 세션 복습

 

 


통계학 기초 5주차

 

 

1. 피어슨 상관계수

  • 두 연속형 변수 간의 선형 관계를 측정하는 지표
  • -1에서 1 사이의 값을 가진다.
  • 1은 완전한 양의 선형 관계
  • -1은 오나전한 음의 선형 관계
  • 0은 선형 관계가 없음을 의미

언제 사용할까?

  • 선형적인 관계가 예상 될 때
  • 비선형 관계에선 사용할 수 없음

 

2. 비모수 상관계수

  • 데이터가 정규분포를 따르지 않거나 변수들이 순서형 데이터일 때 사용하는 상관계수
  • 데이터의 분포에 대한 가정 없이 두 변수 간의 상관관계를 측정할 때 사용
  • 대표적으로 스피어만 상관계수와 켄달의 타우 상관계수가 있다.

가. 스피어만 상관계수

  • 두 변수의 순위 간의 일관성을 측정
  • 켄달의 타우 상관계수보다 데이터 내 편차와 에러에 민감함

나. 켄달의 타우 상관계수

  • 순위 간의 일치 쌍 및 불일치 쌍의 비율을 바탕으로 계산
  • 사람의 키와 몸무게에 대해 상관계수를 알고자 할때 키가 크고 몸무게도 더 나가면 일치쌍에 해당, 키가 크지만 몸무게가 더 적으면 불일치 쌍에 해당 이들의 개수 비율로 상관계수를 결정한다.

언제 사용할까?

  • 데이터의 분포에 대한 가정을 하지 못할 때
  • 순서형 데이터에서도 사용하고 싶을 때

 

3. 상호정보 상관계수

  • 두 변수 간의 상호 정보를 측정
  • 변수 간의 정보 의존성을 바탕으로 비선형 관계를 탐지
  • 서로의 정보에 대한 불확실성을 줄이는 정도를 바탕으로 계산
  • 범주형 데이터에 대해서도 적용 가능

언제 사용할까?

  • 두 변수가 범주형 변수일 때
  • 비선형적이고 복잡한 관계를 탐지하고자 할 때