250409_Data_6기 TIL 37일차
- - 통계학 라이브 세션 복습 ✅
- - 머신 러닝 3~5강 듣기 ✅
- - 파이썬 스탠다드 세션 복습 ✅
- - 코드카타 1문제 ✅
통계 라이브 세션 #4
1. 회귀분석이란?
회귀 분석 : 두 변수 이상 간의 관계를 모델링하고 예측하는 통계 기법. 독립변수(x)로 종속변수(y)를 예측하는 분석기법
✅ 회귀 분석의 주요 목적
- 예측(prediction) : 미래 값을 추정
- 설명(explanation) : 변수 간 관계 파악
- 모델링(modeling) : 수학적 모델 구축
✅ 프로세스
1. 독립변수, 종속변수 설정
- 독립변수와 종속변수를 정하고 가설을 설정합니다.
ex)
→ 독립변수: 게임시간
→ 종속변수: 전기세
→ 귀무가설: 게임시간은 전기세와 관련이 없을 것이다.
→ 대립가설: 게임시간은 전기세와 관련이 있을 것이다.
2. 데이터 경향성 확인
- 독립변수와 종속변수 간 산점도 분석 및 상관관계 분석을 통해 데이터 분포를 확인한다.
3. 정합성 검증 & 결과 해석
- 회귀분석 결과를 해석하기 위해 다음 3가지를 살펴본다.
1️⃣ 회귀모델(회귀식)이 얼마나 설명력을 갖는지
2️⃣ 회귀모델(회귀식)이 통계적으로 유의한지
3️⃣ 독립변수와 종속변수 간 선형관계가 있는지
2. 회귀분석의 특징, 종류
특징
- 장점
- 친밀성 : 예측문제 해결에서 가장 많이 사용되고 있는 방법으로 분석 및 해석 방법이 다수 존재
- 유용성 : 결과에 대한 근거, 이유, 활용방안 등의 정보를 얻는 데 유용
- 유연성 : 종속변수를 설명하기 위한 다양한 독립변수를 선택하고 실험할 수 있다.
-단점
- 복잡성 : 기본 가정이 어긋나면 회귀분석을 사용할 수 없다.
- 한계성 : 비선형성 확인을 위한 적절한 방식이 존재하지 않는다.
종류
회귀분석은 회귀 계수의 선형여부, 독립변수의 개수, 종속변수의 개수에 따라 여러가지 유형으로 나눌 수 있다. 데이터 분석에서 가장 많이 사용되는 선형회귀분석과 로지스틱 회귀분석의 개념을 알아보자
선형회귀분석
로지스틱 회귀분석
3. 정합성 검증 & 결과 해석
3-1. 회귀모델(회귀식)이 얼마나 설명력을 갖는가?
→ 결정계수 R_squared(R²) 를 확인
결정계수는 종속변수와 독립변수의 관계를 나타내는 수치
설명력(R²)은 전체오류중 회귀를 함으로써 얼마나 개선되었는가를 의미
설명력은 0과 1 사이의 값을 가지며, 1에 가까울수록 모델의 성능이 좋다는 것을 의미
3-2. 회귀모델(회귀식)이 통계적으로 유의한지?
→ 회귀식에 대한 F검정 시행
- 귀무가설 : 회귀모델은 타당하지 않을 것이다 = 회귀 계수들이 모두 0이다.
- 대립가설 : 회귀모델은 타당할 것이다 = 적어도 하나의 회귀 계수는 0이 아니다.
→ p-value로 유의성을 판단
→ F-검정을 통해 얻은 p-value 값이 0.05보다 작다면 대립가설을 채택(신뢰도 95%)
→ p-value 는 ‘신뢰도’에 대한 검정통계량인 점
3-3. 독립변수와 종속변수간 선형관계가 있는지?
→ 회귀식의 $\beta_1$(기울기) 에 대한 t 검정 시행
- 귀무가설 : 독립변수와 종속변수 간 선형적인 연관이 없을 것이다.
- 대립가설 : 독립변수와 종속변수 간 선형적인 연관이 있을 것이다.
→ p-value로 유의성을 판단
→ t-검정을 통해 얻은 p-value 값이 0.05보다 작다면 대립가설을 채택
3-4. OLS(Ordinary Least Squares) 해석하기
- OLS는 "오차 제곱의 합을 최소화하는 회귀 계수"를 찾는다.
- 주요 해석 포인트는: 회귀 계수(coef), p-value, 신뢰구간, R²
- 계수 해석은 "독립변수 1단위 변화 시 종속변수가 얼마나 변하는가"를 의미함.
'데이터 분석 입문 주차' 카테고리의 다른 글
250414_Data_6기 TIL 40일차 - 통계 라이브세션, 파이썬 스탠다드 복습 (0) | 2025.04.14 |
---|---|
250408_Data_6기 TIL 36일차 - 통계학 기초 6주차 (0) | 2025.04.08 |
250407_Data_6기 TIL 35일차 - 통계학 기초 5주차 (0) | 2025.04.07 |
250404_Data_6기 TIL 34일차 - 파이썬 스탠다드 #2 (0) | 2025.04.04 |
데이터 분석 입문 주차데이터 분석 입문 주차250403_Data_6기 TIL 33일차 - 통계학 기초, 통계 라이브세션, 파이썬 스탠다드 복습 (0) | 2025.04.03 |