데이터 분석 입문 주차

250409_Data_6기 TIL 37일차 - 통계 라이브 세션 #4

juneoh20 2025. 4. 9. 20:38

250409_Data_6기 TIL 37일차

 

  • - 통계학 라이브 세션 복습
  • - 머신 러닝 3~5강 듣기
  • - 파이썬 스탠다드 세션 복습
  • - 코드카타 1문제

 


통계 라이브 세션 #4

 

 

1. 회귀분석이란?

회귀 분석 : 두 변수 이상 간의 관계를 모델링하고 예측하는 통계 기법. 독립변수(x)로 종속변수(y)를 예측하는 분석기법

 

✅ 회귀 분석의 주요 목적

  • 예측(prediction) : 미래 값을 추정
  • 설명(explanation) : 변수 간 관계 파악
  • 모델링(modeling) : 수학적 모델 구축

프로세스

 

1. 독립변수, 종속변수 설정

- 독립변수와 종속변수를 정하고 가설을 설정합니다.

ex)

→ 독립변수: 게임시간 
→ 종속변수: 전기세 
→ 귀무가설: 게임시간은 전기세와 관련이 없을 것이다.
→ 대립가설: 게임시간은 전기세와 관련이 있을 것이다.

 

2. 데이터 경향성 확인

- 독립변수와 종속변수 간 산점도 분석 및 상관관계 분석을 통해 데이터 분포를 확인한다.

 

3. 정합성 검증 & 결과 해석

- 회귀분석 결과를 해석하기 위해 다음 3가지를 살펴본다.

 

1️⃣ 회귀모델(회귀식)이 얼마나 설명력을 갖는지
2️⃣ 회귀모델(회귀식)이 통계적으로 유의한지
3️⃣ 독립변수와 종속변수 간 선형관계가 있는지

 

2. 회귀분석의 특징, 종류

특징

- 장점

  • 친밀성 : 예측문제 해결에서 가장 많이 사용되고 있는 방법으로 분석 및 해석 방법이 다수 존재
  • 유용성 : 결과에 대한 근거, 이유, 활용방안 등의 정보를 얻는 데 유용
  • 유연성 : 종속변수를 설명하기 위한 다양한 독립변수를 선택하고 실험할 수 있다.

-단점

  • 복잡성 : 기본 가정이 어긋나면 회귀분석을 사용할 수 없다.
  • 한계성 : 비선형성 확인을 위한 적절한 방식이 존재하지 않는다.

종류

 회귀분석은 회귀 계수의 선형여부, 독립변수의 개수, 종속변수의 개수에 따라 여러가지 유형으로 나눌 수 있다. 데이터 분석에서 가장 많이 사용되는 선형회귀분석과 로지스틱 회귀분석의 개념을 알아보자

 

선형회귀분석

 

 

 

로지스틱 회귀분석

 

 

 

3. 정합성 검증 & 결과 해석

 

3-1. 회귀모델(회귀식)이 얼마나 설명력을 갖는가?

→ 결정계수 R_squared(R²) 를 확인

 결정계수는 종속변수와 독립변수의 관계를 나타내는 수치

설명력(R²)은 전체오류중 회귀를 함으로써 얼마나 개선되었는가를 의미
설명력은 0과 1 사이의 값을 가지며, 1에 가까울수록 모델의 성능이 좋다는 것을 의미

 

3-2. 회귀모델(회귀식)이 통계적으로 유의한지?

→ 회귀식에 대한 F검정 시행

 

- 귀무가설 : 회귀모델은 타당하지 않을 것이다 = 회귀 계수들이 모두 0이다.

- 대립가설 : 회귀모델은 타당할 것이다 = 적어도 하나의 회귀 계수는 0이 아니다.

 

→ p-value로 유의성을 판단
→ F-검정을 통해 얻은 p-value 값이 0.05보다 작다면 대립가설을 채택(신뢰도 95%)
→ p-value 는 ‘신뢰도’에 대한 검정통계량인 점

 

3-3. 독립변수와 종속변수간 선형관계가 있는지?

→ 회귀식의 $\beta_1$(기울기) 에 대한 t 검정 시행

 

- 귀무가설 : 독립변수와 종속변수 간 선형적인 연관이 없을 것이다.

- 대립가설 : 독립변수와 종속변수 간 선형적인 연관이 있을 것이다.

 

→ p-value로 유의성을 판단
→ t-검정을 통해 얻은 p-value 값이 0.05보다 작다면 대립가설을 채택

 

3-4. OLS(Ordinary Least Squares) 해석하기

 

  • OLS는 "오차 제곱의 합을 최소화하는 회귀 계수"를 찾는다.
  • 주요 해석 포인트는: 회귀 계수(coef), p-value, 신뢰구간, R²
  • 계수 해석은 "독립변수 1단위 변화 시 종속변수가 얼마나 변하는가"를 의미함.