b250403_Data_6기 TIL 33일차
- - 통계학 기초 강의 4주차 수강 ✅
- - 기초프로젝트 코드 분석 #4 ✅
- - 아티클 스터디 정리 ✅
- - 10분 판다스 ✅
- - 통계 라이브세션 복습 ✅
- - 파이썬 스탠다드 세션 복습 ✅
통계학 기초 4주차
회귀(Regression)
1. 단순 선형 회귀
- 하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법.
☑️ 회귀식
- Y = β0 + β1X, 여기서 β0는 절편, β1는 기울기
☑️ 특징
- 독립 변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명하고 예측
- 데이터가 직선적 경향을 따를 때 사용한다.
- 간단하고 해석이 용이하다.
- 데이터가 선형적이지 않을 경우 적합하지 않다.
언제 사용할까?
☑️ 하나의 독립변수와 종속변수와의 관계를 분석 및 예측
- 광고비(X)와 매출(Y) 간의 관계 분석.
- 현재의 광고비를 바탕으로 예상되는 매출을 예측 가능.
2. 다중 선형 회귀
- 두 개 이상의 독립 변수(X1, X2, ..., Xn)와 하나의 종속 변수(Y) 간의 관계를 모델링.
☑️ 회귀식
- Y = β0 + β1X1 + β2X2 + ... + βnXn
☑️ 특징
- 여러 독립 변수의 변화를 고려하여 종속 변수를 설명하고 예측
- 종속변수에 영향을 미치는 여러 독립변수가 있을 때 사용
- 여러 변수의 영향을 동시에 분석 가능
- 변수들 간의 다중공선성 문제가 발생 할 수 있다.
다중공선성이란?
- 다중공선성(Multicollinearity)은 회귀 분석에서 독립 변수들 간에 높은 상관관계가 있는 경우를 말한다.
- 이는 회귀분석 모델의 성능과 해석에 여러 가지 문제를 일으킬 수 있다.
언제 사용할까?
☑️ 두 개 이상의 독립 변수와 종속변수와의 관계를 분석 및 예측
- 다양한 광고비(TV, Radio, Newspaper)과 매출 간의 관계 분석.
- 현재의 광고비(TV, Radio, Newspaper)를 바탕으로 예상되는 매출을 예측 가능.
3. 범주형 변수
- 수치형 데이터가 아닌 주로 문자형 데이터로 이루어져 있는 변수가 범주형 변수
☑️ 범주형 변수 종류
- 순서가 있는 범주형 변수
- 순서가 없는 범주형 변수
언제 사용할까?
☑️ 범주형 변수를 찾고 더미 변수로 변환한 후 회귀 분석 수행
- 성별, 근무 경력과 연봉 간의 관계.
- 성별과 근무 경력이라는 요인변수 중 성별이 범주형 요인변수에 해당
- 해당 변수를 더미 변수로 변환
- 회귀 수행
4. 다항회귀, 스플라인 회귀
☑️ 다항회귀
- 독립 변수와 종속 변수 간의 관계가 선형이 아닐 때 사용. 독립 변수의 다항식을 사용하여 종속 변수를 예측
- 데이터가 곡선적 경향을 따를 때 사용한다.
- 비선형 관계를 모델링 할 수 있다.
- 고차 다항식의 경우 과적합(overfitting) 위험이 있다.
☑️ 스플라인 회귀
- 독립 변수의 구간별로 다른 회귀식을 적용하여 복잡한 관계를 모델링
- 구간마다 다른 다항식을 사용하여 전체적으로 매끄러운 곡선을 생성
- 데이터가 국부적으로 다른 패턴을 보일 때 사용
- 복잡한 비선형 관계를 유연하게 모델링할 수 있다.
- 적절한 매듭접(knots)의 선택이 중요
언제 사용할까?
☑️ 독립변수와 종속변수의 관계가 비선형 관계일 때 사용
- 주택 가격 예측(면적과 가격 간의 비선형 관계)
라이브 세션 통계학 #2
1. 데이터 분석가의 통계적 실험
데이터 분석가는 데이터 종류에 따라 알 맞은 분석기법을 활용해야 함.
- 변수 : 대상의 속성이나 특성을 측정하여 기록한 것
- 독립변수 : 원인이 되는 변수로, 설명변수라고도 함
- 종속변수 : 결과가 되는 변수로, 결과변수라고도 함, 독립변수에 따라 그 값이 변할 것이라고 예상하는 변수이다.
- 모수 : 모집단을 대표하는 값
- 모수통계 : 모집단이 정규분포를 따른다는 가정하에 사용. 데이터 분석가는 주로 모수통계를 진행하게 된다. 평균, 분산 등의 값을 알고 있다는 가정 하에 진행하는 통계분석
- 비모수통계 : 모집단이 정규분포가 아닐 때 사용 (표본의 크기가 충분히 크지 않음: 소규모 실험에 해당) 평균, 분산 등의 값을 가정하지 않고 진행하는 통계분석
통계적 실험이란?
- 정의 : 어떤 목적을 가지고 관찰을 통해 결과(측정값)를 얻어내는 것
- 목적 : 통계적 추론을 통해 보다 진실에 가까운 값을 도출하기 위함.
- 프로세스 : 가설 수립 → 실험 설계 → 데이터 수집 → 추론 및 결론 도출
2. A/B TEST
A/B 테스트란?
A/B 테스트는 마케팅 고객데이터 분석 중 가장 널리 사용되는 방법.
과학에서 쓰여왔던 대조 실험과 같다.
해당 테스트의 목적은 1. 고객의 니즈파악 2. 최소 투자로 최대 이익을 창출하고자 하는 것에(ROI 상승) 목적이 있다.
- 정의 : A/B TEST는 두가지 처리 방법 중 어떠한 쪽이 더 좋다는 것을 입증하기 위해 실험군을 두 그룹으로 나누어 진행하는 실험이다.
- 버킷테스트 또는 분할 테스트라고도 불림
- 종종 두 가지 처리 방법 중 하나는 기준이 되는 기존 방법이거나 아예 아무런 처리도 적용하지 않는 방법이 된다.
- 목적
- UI/UX 개선 : UI, UX가 불친절할 경우 이탈 가능성이 높다. 그러므로 이를 개선하는 작업이 중요하다.
- 전환율 증가 : A/B 테스트를 통해 무엇이 효과가 있는지(또는 없는지) 파악하면 전환율 상승에 도움이 된다.
- 매출 증가 : UX ㄷ개선시 전환율 상승 뿐만 아니라, 브랜드에 대한 고객 충성도도 높아진다.
- 주요 지표
- 서비스 가입률
- 재방문율
- CTR(노출 대비 클릭률), CVR(클릭 대비 전환율, 구매전환율)
- ROAS(캠페인 비용 대비 캠페인 수익)
- eCPM(1000회 광고 노출당 얻은 수익)
A/B 테스트 프로세스
크게 5가지 단계로 진행된다.
1. 현행 데이터 탐색
- 앞서 살펴본 주요 지표를 기준으로 현재 데이터 탐색
2. 가설 설정
- 비즈니스 목표를 달성하는 데 필요한 KPI 정의
- 전환율 증가를 위한 귀무가설, 대립가설을 설정
- 귀무 가설
- 통계학에서 처음부터 버릴 것을 예상하는 가설
- 차이가 없거나 의미 있는 차이가 없는 경우의 가설
- 대립가설
- 귀무가설에 대립하는 명제
- 귀무 가설
3. 유의수준 설정
- 귀무가설이 맞을 때 오류를 얼마나 허용할 것인지 기준을 정하는 단계
4. 테스트 설계 및 실행
- 사용자를 대조군과 실험군의 두 그룹으로 분리
- 대조군에게 현재 버전, 실험군에게 새 버전을 노출
5. 테스트 결과 분석
- 측정 항목(가설)에 대해 두 그룹의 결과를 분석.(검정 통계량 분석)
- 대조군과 실험군 사이의 통계적으로 유의미한 차이가 있는지 확인
A/B 테스트 주의 사항
- 적절한 표본 크기
- 하나의 변수만 변경 : 두 가지 이상의 변수를 동시에 변경하면 어떤 변수가 영향을 미쳤는지 파악할 수 없다.
- 무작위성
- 적절한 분석 방법
- 테스트 결과의 의미 : A/B 테스트 결과가 통계적으로 유의미하더라도 항상 실제로 의미 있는 결과인지 한번 더 생각해보아야 한다.
- 정해진 기간 동안 진행 : 동일한 기간 동안 진행해야한다.
3. 유의수준 설정하기
유의수준
- 정의 : 귀무가설이 맞을 때 기각할 확률
- 표기 : α
- 범용적 기준 : 5%, 1%, 10%
- 신뢰도와의 관계 95%의 신뢰도를 기준으로 한다면 1-0.95인 0.05가 유의 수준
4. 검정통계량과 p-value
결과 해석
1. 검정 방식 정하기 & 검정 통계량 계산하기
귀무가설을 채택할지, 기각할지 결정할 수 있어야함.
검정 통계량이란 귀무가설을 채택 또는 기각하기 위해 사용하는 확률변수를 의미함.
→ 확률변수란, 특정 확률로 발생하는 각각의 결과를 수치값으로 표현하는 변수
→ 즉 확률에 대한 수치이므로, 0과 1 사이의 값을 가지게 됨
검정통계량은 표본 평균, 비율, 상관 계수 간의 차이 등 다양한 형태를 취할 수 있다. 검정방
식의 선택은 가설과 데이터 종류에 따라 달라진다.
2. p-value
p-value란? 어떤 사건이 우연히 발생할 확률
유의수준보다 p-value 가 작은 경우에 우연히 일어날 가능성이 거의 없어 대립가설을 채택하게 될 수 있다.
- p-value가 0.05 보다 작다 = 우연히 일어났을 가능성이 거의 없다 = 인과관계가 있다고 추정 = 대립가설 채택
- p-value가 0.05 보다 크다 = 우연히 일어났을 가능성이 높다 = 인과관계가 없다고 추정 = 대립가설 기각
파이썬 스탠다드 #1
[수업 목표]
- Long Format과 Wide Format 변환을 이해합니다.
- melt, stack, unstack 을 활용한 데이터 고급핸들링 기법을 숙지합니다.
1. Long Format과 Wide Format 변환
python에서는 long format과 wide format을 자유롭게 변환 시킬 수 있다.
Wide Format
- 각 주제 또는 관찰단위가 단일 행으로 표시되는 구조
- 한 대상에서 측정한 여러 측정값을 모두 한 행에 표시하고, 열이름으로 그 측정값의 의미를 나타낸 형태
Long Format
- 하나의 열에 데이터를 나타내고 다른 열에 데이터에 대응하는 변수를 나타낸 형태
- "긴 형식"이라고도 하며, 데이터를 기록할 때 하나의 관찰값이 하나의 행에 위치하도록 하는 형태!
함수(메서드)
- pivot table
- 변환 방향 : 정리된 표 생성(요약)
- 특징 : 그룹화, 집계
- melt
- Wide → Long
- 특징 : 컬럼을 행으로 변환
- stack
- Wide → Long
- 특징 : 컬럼을 인덱스로 이동
- unstack
- Long → Wide
- 특징 : 인덱스를 컬럼으로 이동
- transpose
- 행 ↔︎ 열
- 특징 : 전체 행렬 변환
2. Transpose, melt, stack, unstack
Transpose
- 개념 : 데이터의 열과 행을 바꿔주는 전치 함수
- 문법 : 데이터프레임명.T
- 특징 : 열이 많을 경우 간단한 행렬전환을 통해 구조를 살펴볼 수 있다.
- 주의점 : 데이터 크기가 큰 경우 시간이 오래 걸릴 수 있다. 그러므로 행렬전환 이전에 head() 등으로 전체 데이터를 잘라준 다음 구조를 파악해주는 것이 좋다.
Pivot table
- 개념 : Index, Columns, Values, Aggfunc 을 직접 선언하여 테이블을 변환하는 함수 특정 열을 기준으로 데이터를 요약하고, 새로운 형태의 표로 변환
- pd.pivot_table(데이터프레임명, index=컬럼명, columns=컬럼명, values=컬럼명, aggfunc=연산방식)
• index: 인덱스(축) 으로 사용될 열
• columns: 열로 사용될 열
• values: 값으로 사용될 열
• aggfunc: 연산 방식 - 특징 : index, values, aggfunc 입력을 List형식으로 지정할 수 있다.
- 주의점 : 필수 파라미터가 존재함. Columns 를 제외한 데이터 프레임명, index, values, aggfunc
Melt
- 알아두면 유용하게 쓸 수 있는 데이터 프레임 재구조화 메서드
- 피벗 형태의 테이블을 기존 형태로 바꿔주는 역할도 수행한다.
- 개념 : 데이터프레임의 컬럼을 열로 바꿔주는 메서드
- 데이터프레임명.melt(id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None, ignore_index=True)
• id_vars : 기준이 될 열
• value_vars : 기준열에 대한 하위 카테고리를 나열할 열을 선택
• var_name : 카테고리들이 나열된 열의 이름 설정
• value_name : 카테고리들의 값이 나열될 열의 이름 설정
• col_leve : multi index의 경우 melt를 수행할 레벨을 설정
• ignore_index : 인덱스를 1,2,3, ... , n으로 설정할지 여부입니다. 디폴트값은 True로 1,2,3, ... , n으로 설정됨 - 특징 : 피벗 형태의 테이블을 기존 형태로 바꿔주는 역할을 수행
Stack
- 알아두면 유용하게 쓸 수 있는 데이터 프레임 재구조화 메서드
- 개념 : 컬럼을 인덱스의 하위 레벨로 변환
- 데이터프레임명.stack(level=-1, dropna=True)
• level: stack을 수행할 인덱스 레벨을 지정합니다. 기본값은 -1로, 마지막 인덱스 레벨을 사용
• dropna: 스택을 수행한 결과에서 결측값을 제거할지 여부를 지정. 기본값은 True로, 결측값을 제거함 - 특징 : 멀티인덱스 처리 가능
Unstack
- 알아두면 유용하게 쓸 수 있는 데이터 프레임 재구조화 메서드
- 개념 : 인덱스 레벨을 컬럼으로 변환
- 데이터프레임명.unstack(level=-1, dropna=True)
• level: unstack을 수행할 인덱스 레벨을 지정. 기본값은 -1로, 마지막 인덱스 레벨을 사용
• fill_value: unstack을 수행한 결과에서 결측값을 채울 값을 지정. 기본값은 None으로, 결측값을 그대로 둠 - 특징 : 멀티인덱스 처리 가능
Stack ↔︎ Unstack : 조립은 분해의 역순.
아티클 스터디 - 데이터 분석가가 갖춰야할 9가지 역량.
하드 스킬
1) 사용 언어
주로 SQL 사용. 심화된 분석이 필요할 때 파이선 사용 속한 조직 및 분석 환경에 따라 사용하는 프로그램이 다름.
2) 통계학
기초 통계학 관련 내용을 익혀두면 도움이 된다.
3) 도메인 및 비즈니스에 대한 이해
도메인에 다라 정의해야 할 문제와 비즈니스가 다르므로 서비스 전반을 이해하는데 반드시 필요하다.
4) 툴을 다루는 역량
SaaS 툴과 BI 툴은 데이터 기반의 의사결정을 빠르게 할 수 있는 환경을 위해 필요하다.
5) 업무 자동화와 데이터 엔지니어링
일회성 분석의 자동화
소프트 스킬
6) 커뮤니케이션 능력
다양한 직무의 관점으로 바라보고, 모두가 이해할 수 있는 언어로 바꿀 수 있는지가 중요하다.
7) 협업 능력과 태도
다양한 직무의 팀원들과 협업 및 커뮤니케이션을 함. 그들이 잘 이해할 수 있는 소통 방식과 태도를 갖춰야함.
8) 문제 정의 및 문제 해결 능력
문제를 논리적으로 정의하고, 현상에 대한 파악을 토대로 다양한 분석 방법론을 시도하는 것이 중요
9) 보고서 작성
비즈니스 관점의 표현과 언어를 사용해 보고서 작성시 협업은 물론, 이해 관계자들을 설득하기 용이하다.
- 주요 포인트 : 9가지 역량 중 크게 하드 스킬과 소프트 스킬로 나눌 수 있다.
- 인사이트 : 하드 스킬과 소프트 스킬로 나뉘어진 9가지 역량에 대해 살펴 보았다. 조금 더 거시적인 관점에서 역량들이 필요한 이유를 생각 해보았다. 해당 역량들이 필요한 목적은 다양한 직무의 관점에서 보았을 때도 설득력 있는 분석을 전달하기 위해서이다. 본문의 9가지 역량을 강화하면서 목적도 잊지 않아야 한다 생각합니다.
- 용어 정리 :
데이터 드리븐(Data Driven) : 데이터를 기반으로 의사결정하는 것을 의미합니다. 즉, 데이터가 모든 의사결정을 좌지우지한다는 것
기능 조직 : 비슷한 기능(업무)을 수행하는 사람들끼리 묶는 방식
ex) 마케팅팀, 인사팀, 생산팀
목적 조직 : 제품, 고객, 지역 등 목적에 따라 조직을 나누는 방식
ex) 제품군별로 또는 지역별로 부서를 나눔.
마무리
어우 오늘 하루 진짜 꽉꽉 채워서 바빴던것 같다. 고생했다 오석준아..
'데이터 분석 입문 주차' 카테고리의 다른 글
250407_Data_6기 TIL 35일차 - 통계학 기초 5주차 (0) | 2025.04.07 |
---|---|
250404_Data_6기 TIL 34일차 - 파이썬 스탠다드 #2 (0) | 2025.04.04 |
데이터 분석 입문 주차250402_Data_6기 TIL 32일차 - 통계학 기초, 라이브세션 복습 (0) | 2025.04.02 |
250401_Data_6기 TIL 31일차 - 통계학 기초 2주차, 기초 프로젝트 코드 분석, 아티클 스터디 (1) | 2025.04.01 |
250331_Data_6기 TIL 30일차 - 통계학 기초 1주차, 기초 프로젝트 코드 분석 (0) | 2025.03.31 |