데이터 분석 입문 주차데이터 분석 입문 주차250403_Data_6기 TIL 33일차 - 통계학 기초, 통계 라이브세션, 파이썬 스탠다드 복습

데이터 분석 입문 주차

데이터 분석 입문 주차데이터 분석 입문 주차250403_Data_6기 TIL 33일차 - 통계학 기초, 통계 라이브세션, 파이썬 스탠다드 복습

juneoh20 2025. 4. 3. 20:36

b250403_Data_6기 TIL 33일차

- 통계학 기초 강의 4주차 수강 ✅
- 기초프로젝트 코드 분석 #4 ✅
- 아티클 스터디 정리 ✅
- 10분 판다스 ✅
- 통계 라이브세션 복습 ✅
- 파이썬 스탠다드 세션 복습 ✅

통계학 기초 4주차

회귀(Regression)

1. 단순 선형 회귀

하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법.

☑️ 회귀식

Y = β0 + β1X, 여기서 β0는 절편, β1는 기울기

☑️ 특징

독립 변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명하고 예측
데이터가 직선적 경향을 따를 때 사용한다.
간단하고 해석이 용이하다.
데이터가 선형적이지 않을 경우 적합하지 않다.

언제 사용할까?

☑️ 하나의 독립변수와 종속변수와의 관계를 분석 및 예측

광고비(X)와 매출(Y) 간의 관계 분석.
현재의 광고비를 바탕으로 예상되는 매출을 예측 가능.

2. 다중 선형 회귀

두 개 이상의 독립 변수(X1, X2, ..., Xn)와 하나의 종속 변수(Y) 간의 관계를 모델링.

☑️ 회귀식

Y = β0 + β1X1 + β2X2 + ... + βnXn

☑️ 특징

여러 독립 변수의 변화를 고려하여 종속 변수를 설명하고 예측
종속변수에 영향을 미치는 여러 독립변수가 있을 때 사용
여러 변수의 영향을 동시에 분석 가능
변수들 간의 다중공선성 문제가 발생 할 수 있다.

다중공선성이란?

다중공선성(Multicollinearity)은 회귀 분석에서 독립 변수들 간에 높은 상관관계가 있는 경우를 말한다.
이는 회귀분석 모델의 성능과 해석에 여러 가지 문제를 일으킬 수 있다.

언제 사용할까?

☑️ 두 개 이상의 독립 변수와 종속변수와의 관계를 분석 및 예측

다양한 광고비(TV, Radio, Newspaper)과 매출 간의 관계 분석.
현재의 광고비(TV, Radio, Newspaper)를 바탕으로 예상되는 매출을 예측 가능.

3. 범주형 변수

수치형 데이터가 아닌 주로 문자형 데이터로 이루어져 있는 변수가 범주형 변수

☑️ 범주형 변수 종류

순서가 있는 범주형 변수
순서가 없는 범주형 변수

언제 사용할까?

☑️ 범주형 변수를 찾고 더미 변수로 변환한 후 회귀 분석 수행

성별, 근무 경력과 연봉 간의 관계.
성별과 근무 경력이라는 요인변수 중 성별이 범주형 요인변수에 해당
해당 변수를 더미 변수로 변환
회귀 수행

4. 다항회귀, 스플라인 회귀

☑️ 다항회귀

독립 변수와 종속 변수 간의 관계가 선형이 아닐 때 사용. 독립 변수의 다항식을 사용하여 종속 변수를 예측
데이터가 곡선적 경향을 따를 때 사용한다.
비선형 관계를 모델링 할 수 있다.
고차 다항식의 경우 과적합(overfitting) 위험이 있다.

☑️ 스플라인 회귀

독립 변수의 구간별로 다른 회귀식을 적용하여 복잡한 관계를 모델링
구간마다 다른 다항식을 사용하여 전체적으로 매끄러운 곡선을 생성
데이터가 국부적으로 다른 패턴을 보일 때 사용
복잡한 비선형 관계를 유연하게 모델링할 수 있다.
적절한 매듭접(knots)의 선택이 중요

언제 사용할까?

☑️ 독립변수와 종속변수의 관계가 비선형 관계일 때 사용

주택 가격 예측(면적과 가격 간의 비선형 관계)

라이브 세션 통계학 #2

1. 데이터 분석가의 통계적 실험

데이터 분석가는 데이터 종류에 따라 알 맞은 분석기법을 활용해야 함.

변수 : 대상의 속성이나 특성을 측정하여 기록한 것
독립변수 : 원인이 되는 변수로, 설명변수라고도 함
종속변수 : 결과가 되는 변수로, 결과변수라고도 함, 독립변수에 따라 그 값이 변할 것이라고 예상하는 변수이다.
모수 : 모집단을 대표하는 값
모수통계 : 모집단이 정규분포를 따른다는 가정하에 사용. 데이터 분석가는 주로 모수통계를 진행하게 된다. 평균, 분산 등의 값을 알고 있다는 가정 하에 진행하는 통계분석
비모수통계 : 모집단이 정규분포가 아닐 때 사용 (표본의 크기가 충분히 크지 않음: 소규모 실험에 해당) 평균, 분산 등의 값을 가정하지 않고 진행하는 통계분석

통계적 실험이란?

정의 : 어떤 목적을 가지고 관찰을 통해 결과(측정값)를 얻어내는 것
목적 : 통계적 추론을 통해 보다 진실에 가까운 값을 도출하기 위함.
프로세스 : 가설 수립 → 실험 설계 → 데이터 수집 → 추론 및 결론 도출

2. A/B TEST

A/B 테스트란?

A/B 테스트는 마케팅 고객데이터 분석 중 가장 널리 사용되는 방법.

과학에서 쓰여왔던 대조 실험과 같다.

해당 테스트의 목적은 1. 고객의 니즈파악 2. 최소 투자로 최대 이익을 창출하고자 하는 것에(ROI 상승) 목적이 있다.

정의 : A/B TEST는 두가지 처리 방법 중 어떠한 쪽이 더 좋다는 것을 입증하기 위해 실험군을 두 그룹으로 나누어 진행하는 실험이다.
- 버킷테스트 또는 분할 테스트라고도 불림
- 종종 두 가지 처리 방법 중 하나는 기준이 되는 기존 방법이거나 아예 아무런 처리도 적용하지 않는 방법이 된다.
목적
- UI/UX 개선 : UI, UX가 불친절할 경우 이탈 가능성이 높다. 그러므로 이를 개선하는 작업이 중요하다.
- 전환율 증가 : A/B 테스트를 통해 무엇이 효과가 있는지(또는 없는지) 파악하면 전환율 상승에 도움이 된다.
- 매출 증가 : UX ㄷ개선시 전환율 상승 뿐만 아니라, 브랜드에 대한 고객 충성도도 높아진다.
주요 지표
- 서비스 가입률
- 재방문율
- CTR(노출 대비 클릭률), CVR(클릭 대비 전환율, 구매전환율)
- ROAS(캠페인 비용 대비 캠페인 수익)
- eCPM(1000회 광고 노출당 얻은 수익)

A/B 테스트 프로세스

크게 5가지 단계로 진행된다.

1. 현행 데이터 탐색

앞서 살펴본 주요 지표를 기준으로 현재 데이터 탐색

2. 가설 설정

비즈니스 목표를 달성하는 데 필요한 KPI 정의
전환율 증가를 위한 귀무가설, 대립가설을 설정
- 귀무 가설
  - 통계학에서 처음부터 버릴 것을 예상하는 가설
  - 차이가 없거나 의미 있는 차이가 없는 경우의 가설
- 대립가설
  - 귀무가설에 대립하는 명제

3. 유의수준 설정

귀무가설이 맞을 때 오류를 얼마나 허용할 것인지 기준을 정하는 단계

4. 테스트 설계 및 실행

사용자를 대조군과 실험군의 두 그룹으로 분리
대조군에게 현재 버전, 실험군에게 새 버전을 노출

5. 테스트 결과 분석

측정 항목(가설)에 대해 두 그룹의 결과를 분석.(검정 통계량 분석)
대조군과 실험군 사이의 통계적으로 유의미한 차이가 있는지 확인

A/B 테스트 주의 사항

적절한 표본 크기
하나의 변수만 변경 : 두 가지 이상의 변수를 동시에 변경하면 어떤 변수가 영향을 미쳤는지 파악할 수 없다.
무작위성
적절한 분석 방법
테스트 결과의 의미 : A/B 테스트 결과가 통계적으로 유의미하더라도 항상 실제로 의미 있는 결과인지 한번 더 생각해보아야 한다.
정해진 기간 동안 진행 : 동일한 기간 동안 진행해야한다.

3. 유의수준 설정하기

유의수준

정의 : 귀무가설이 맞을 때 기각할 확률
표기 : α
범용적 기준 : 5%, 1%, 10%
신뢰도와의 관계 95%의 신뢰도를 기준으로 한다면 1-0.95인 0.05가 유의 수준

4. 검정통계량과 p-value

결과 해석

1. 검정 방식 정하기 & 검정 통계량 계산하기

귀무가설을 채택할지, 기각할지 결정할 수 있어야함.

검정 통계량이란 귀무가설을 채택 또는 기각하기 위해 사용하는 확률변수를 의미함.

→ 확률변수란, 특정 확률로 발생하는 각각의 결과를 수치값으로 표현하는 변수

→ 즉 확률에 대한 수치이므로, 0과 1 사이의 값을 가지게 됨

검정통계량은 표본 평균, 비율, 상관 계수 간의 차이 등 다양한 형태를 취할 수 있다. 검정방

식의 선택은 가설과 데이터 종류에 따라 달라진다.

2. p-value

p-value란? 어떤 사건이 우연히 발생할 확률

유의수준보다 p-value 가 작은 경우에 우연히 일어날 가능성이 거의 없어 대립가설을 채택하게 될 수 있다.

p-value가 0.05 보다 작다 = 우연히 일어났을 가능성이 거의 없다 = 인과관계가 있다고 추정 = 대립가설 채택
p-value가 0.05 보다 크다 = 우연히 일어났을 가능성이 높다 = 인과관계가 없다고 추정 = 대립가설 기각

파이썬 스탠다드 #1

[수업 목표]

Long Format과 Wide Format 변환을 이해합니다.
melt, stack, unstack 을 활용한 데이터 고급핸들링 기법을 숙지합니다.

1. Long Format과 Wide Format 변환

python에서는 long format과 wide format을 자유롭게 변환 시킬 수 있다.

Wide Format

각 주제 또는 관찰단위가 단일 행으로 표시되는 구조
한 대상에서 측정한 여러 측정값을 모두 한 행에 표시하고, 열이름으로 그 측정값의 의미를 나타낸 형태

Long Format

하나의 열에 데이터를 나타내고 다른 열에 데이터에 대응하는 변수를 나타낸 형태
"긴 형식"이라고도 하며, 데이터를 기록할 때 하나의 관찰값이 하나의 행에 위치하도록 하는 형태!

함수(메서드)

pivot table
- 변환 방향 : 정리된 표 생성(요약)
- 특징 : 그룹화, 집계
melt
- Wide → Long
- 특징 : 컬럼을 행으로 변환
stack
- Wide → Long
- 특징 : 컬럼을 인덱스로 이동
unstack
- Long → Wide
- 특징 : 인덱스를 컬럼으로 이동
transpose
- 행 ↔︎ 열
- 특징 : 전체 행렬 변환

2. Transpose, melt, stack, unstack

Transpose

개념 : 데이터의 열과 행을 바꿔주는 전치 함수
문법 : 데이터프레임명.T
특징 : 열이 많을 경우 간단한 행렬전환을 통해 구조를 살펴볼 수 있다.
주의점 : 데이터 크기가 큰 경우 시간이 오래 걸릴 수 있다. 그러므로 행렬전환 이전에 head() 등으로 전체 데이터를 잘라준 다음 구조를 파악해주는 것이 좋다.

Pivot table

개념 : Index, Columns, Values, Aggfunc 을 직접 선언하여 테이블을 변환하는 함수 특정 열을 기준으로 데이터를 요약하고, 새로운 형태의 표로 변환
pd.pivot_table(데이터프레임명, index=컬럼명, columns=컬럼명, values=컬럼명, aggfunc=연산방식)
• index: 인덱스(축) 으로 사용될 열
• columns: 열로 사용될 열
• values: 값으로 사용될 열
• aggfunc: 연산 방식
특징 : index, values, aggfunc 입력을 List형식으로 지정할 수 있다.
주의점 : 필수 파라미터가 존재함. Columns 를 제외한 데이터 프레임명, index, values, aggfunc

Melt

알아두면 유용하게 쓸 수 있는 데이터 프레임 재구조화 메서드
피벗 형태의 테이블을 기존 형태로 바꿔주는 역할도 수행한다.
개념 : 데이터프레임의 컬럼을 열로 바꿔주는 메서드
데이터프레임명.melt(id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None, ignore_index=True)
• id_vars : 기준이 될 열
• value_vars : 기준열에 대한 하위 카테고리를 나열할 열을 선택
• var_name : 카테고리들이 나열된 열의 이름 설정
• value_name : 카테고리들의 값이 나열될 열의 이름 설정
• col_leve : multi index의 경우 melt를 수행할 레벨을 설정
• ignore_index : 인덱스를 1,2,3, ... , n으로 설정할지 여부입니다. 디폴트값은 True로 1,2,3, ... , n으로 설정됨
특징 : 피벗 형태의 테이블을 기존 형태로 바꿔주는 역할을 수행

Stack

알아두면 유용하게 쓸 수 있는 데이터 프레임 재구조화 메서드
개념 : 컬럼을 인덱스의 하위 레벨로 변환
데이터프레임명.stack(level=-1, dropna=True)
• level: stack을 수행할 인덱스 레벨을 지정합니다. 기본값은 -1로, 마지막 인덱스 레벨을 사용
• dropna: 스택을 수행한 결과에서 결측값을 제거할지 여부를 지정. 기본값은 True로, 결측값을 제거함
특징 : 멀티인덱스 처리 가능

Unstack

알아두면 유용하게 쓸 수 있는 데이터 프레임 재구조화 메서드
개념 : 인덱스 레벨을 컬럼으로 변환
데이터프레임명.unstack(level=-1, dropna=True)
• level: unstack을 수행할 인덱스 레벨을 지정. 기본값은 -1로, 마지막 인덱스 레벨을 사용
• fill_value: unstack을 수행한 결과에서 결측값을 채울 값을 지정. 기본값은 None으로, 결측값을 그대로 둠
특징 : 멀티인덱스 처리 가능

Stack ↔︎ Unstack : 조립은 분해의 역순.

아티클 스터디 - 데이터 분석가가 갖춰야할 9가지 역량.

하드 스킬

1) 사용 언어

주로 SQL 사용. 심화된 분석이 필요할 때 파이선 사용 속한 조직 및 분석 환경에 따라 사용하는 프로그램이 다름.

2) 통계학

기초 통계학 관련 내용을 익혀두면 도움이 된다.

3) 도메인 및 비즈니스에 대한 이해

도메인에 다라 정의해야 할 문제와 비즈니스가 다르므로 서비스 전반을 이해하는데 반드시 필요하다.

4) 툴을 다루는 역량

SaaS 툴과 BI 툴은 데이터 기반의 의사결정을 빠르게 할 수 있는 환경을 위해 필요하다.

5) 업무 자동화와 데이터 엔지니어링

일회성 분석의 자동화

소프트 스킬

6) 커뮤니케이션 능력

다양한 직무의 관점으로 바라보고, 모두가 이해할 수 있는 언어로 바꿀 수 있는지가 중요하다.

7) 협업 능력과 태도

다양한 직무의 팀원들과 협업 및 커뮤니케이션을 함. 그들이 잘 이해할 수 있는 소통 방식과 태도를 갖춰야함.

8) 문제 정의 및 문제 해결 능력

문제를 논리적으로 정의하고, 현상에 대한 파악을 토대로 다양한 분석 방법론을 시도하는 것이 중요

9) 보고서 작성

비즈니스 관점의 표현과 언어를 사용해 보고서 작성시 협업은 물론, 이해 관계자들을 설득하기 용이하다.

주요 포인트 : 9가지 역량 중 크게 하드 스킬과 소프트 스킬로 나눌 수 있다.

인사이트 : 하드 스킬과 소프트 스킬로 나뉘어진 9가지 역량에 대해 살펴 보았다. 조금 더 거시적인 관점에서 역량들이 필요한 이유를 생각 해보았다. 해당 역량들이 필요한 목적은 다양한 직무의 관점에서 보았을 때도 설득력 있는 분석을 전달하기 위해서이다. 본문의 9가지 역량을 강화하면서 목적도 잊지 않아야 한다 생각합니다.

- 용어 정리 :

데이터 드리븐(Data Driven) : 데이터를 기반으로 의사결정하는 것을 의미합니다. 즉, 데이터가 모든 의사결정을 좌지우지한다는 것

기능 조직 : 비슷한 기능(업무)을 수행하는 사람들끼리 묶는 방식

ex) 마케팅팀, 인사팀, 생산팀

목적 조직 : 제품, 고객, 지역 등 목적에 따라 조직을 나누는 방식

ex) 제품군별로 또는 지역별로 부서를 나눔.

마무리

어우 오늘 하루 진짜 꽉꽉 채워서 바빴던것 같다. 고생했다 오석준아..

'데이터 분석 입문 주차' 카테고리의 다른 글

250407_Data_6기 TIL 35일차 - 통계학 기초 5주차 (0)	2025.04.07
250404_Data_6기 TIL 34일차 - 파이썬 스탠다드 #2 (0)	2025.04.04
데이터 분석 입문 주차250402_Data_6기 TIL 32일차 - 통계학 기초, 라이브세션 복습 (0)	2025.04.02
250401_Data_6기 TIL 31일차 - 통계학 기초 2주차, 기초 프로젝트 코드 분석, 아티클 스터디 (1)	2025.04.01
250331_Data_6기 TIL 30일차 - 통계학 기초 1주차, 기초 프로젝트 코드 분석 (0)	2025.03.31

현재글데이터 분석 입문 주차데이터 분석 입문 주차250403_Data_6기 TIL 33일차 - 통계학 기초, 통계 라이브세션, 파이썬 스탠다드 복습

데이터 분석 juneoh20

예비 데이터 분석가 juneoh20

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

데이터 분석 juneoh20