데이터 분석 입문 주차

데이터 분석 입문 주차데이터 분석 입문 주차250403_Data_6기 TIL 33일차 - 통계학 기초, 통계 라이브세션, 파이썬 스탠다드 복습

juneoh20 2025. 4. 3. 20:36

b250403_Data_6기 TIL 33일차

  • - 통계학 기초 강의 4주차 수강
  • - 기초프로젝트 코드 분석 #4
  • - 아티클 스터디 정리
  • - 10분 판다스 
  • - 통계 라이브세션 복습
  • - 파이썬 스탠다드 세션 복습

 

 


통계학 기초 4주차

 

 

회귀(Regression)

1. 단순 선형 회귀

  • 하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법.

☑️ 회귀식

  • Y = β0 + β1X, 여기서 β0는 절편, β1는 기울기

☑️ 특징

  • 독립 변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명하고 예측
  • 데이터가 직선적 경향을 따를 때 사용한다.
  • 간단하고 해석이 용이하다.
  • 데이터가 선형적이지 않을 경우 적합하지 않다.

언제 사용할까?

☑️ 하나의 독립변수와 종속변수와의 관계를 분석 및 예측

  • 광고비(X)와 매출(Y) 간의 관계 분석.
  • 현재의 광고비를 바탕으로 예상되는 매출을 예측 가능.

 

2. 다중 선형 회귀

  • 두 개 이상의 독립 변수(X1, X2, ..., Xn)와 하나의 종속 변수(Y) 간의 관계를 모델링.

☑️ 회귀식

  • Y = β0 + β1X1 + β2X2 + ... + βnXn

☑️ 특징

  • 여러 독립 변수의 변화를 고려하여 종속 변수를 설명하고 예측
  • 종속변수에 영향을 미치는 여러 독립변수가 있을 때 사용
  • 여러 변수의 영향을 동시에 분석 가능
  • 변수들 간의 다중공선성 문제가 발생 할 수 있다.

다중공선성이란?

  • 다중공선성(Multicollinearity)은 회귀 분석에서 독립 변수들 간에 높은 상관관계가 있는 경우를 말한다.
  • 이는 회귀분석 모델의 성능과 해석에 여러 가지 문제를 일으킬 수 있다.

언제 사용할까?

☑️ 두 개 이상의 독립 변수와 종속변수와의 관계를 분석 및 예측

  • 다양한 광고비(TV, Radio, Newspaper)과 매출 간의 관계 분석.
  • 현재의 광고비(TV, Radio, Newspaper)를 바탕으로 예상되는 매출을 예측 가능.

 

3. 범주형 변수

  • 수치형 데이터가 아닌 주로 문자형 데이터로 이루어져 있는 변수가 범주형 변수

☑️ 범주형 변수 종류

  • 순서가 있는 범주형 변수
  • 순서가 없는 범주형 변수

언제 사용할까?

☑️ 범주형 변수를 찾고 더미 변수로 변환한 후 회귀 분석 수행

  • 성별, 근무 경력과 연봉 간의 관계.
  • 성별과 근무 경력이라는 요인변수 중 성별이 범주형 요인변수에 해당
  • 해당 변수를 더미 변수로 변환
  • 회귀 수행

 

4. 다항회귀, 스플라인 회귀

☑️ 다항회귀

  • 독립 변수와 종속 변수 간의 관계가 선형이 아닐 때 사용. 독립 변수의 다항식을 사용하여 종속 변수를 예측
  • 데이터가 곡선적 경향을 따를 때 사용한다.
  • 비선형 관계를 모델링 할 수 있다.
  • 고차 다항식의 경우 과적합(overfitting) 위험이 있다.

☑️ 스플라인 회귀

  • 독립 변수의 구간별로 다른 회귀식을 적용하여 복잡한 관계를 모델링
  • 구간마다 다른 다항식을 사용하여 전체적으로 매끄러운 곡선을 생성
  • 데이터가 국부적으로 다른 패턴을 보일 때 사용
  • 복잡한 비선형 관계를 유연하게 모델링할 수 있다.
  • 적절한 매듭접(knots)의 선택이 중요

언제 사용할까?

☑️ 독립변수와 종속변수의 관계가 비선형 관계일 때 사용

  • 주택 가격 예측(면적과 가격 간의 비선형 관계)

 

 


라이브 세션 통계학 #2

 

 

 

1.  데이터 분석가의 통계적 실험

데이터 분석가는 데이터 종류에 따라 알 맞은 분석기법을 활용해야 함.

  • 변수 : 대상의 속성이나 특성을 측정하여 기록한 것
  • 독립변수 : 원인이 되는 변수로, 설명변수라고도 함
  • 종속변수 : 결과가 되는 변수로, 결과변수라고도 함, 독립변수에 따라 그 값이 변할 것이라고 예상하는 변수이다.
  • 모수 : 모집단을 대표하는 값
  • 모수통계 : 모집단이 정규분포를 따른다는 가정하에 사용. 데이터 분석가는 주로 모수통계를 진행하게 된다. 평균, 분산 등의 값을 알고 있다는 가정 하에 진행하는 통계분석
  • 비모수통계 : 모집단이 정규분포가 아닐 때 사용 (표본의 크기가 충분히 크지 않음: 소규모 실험에 해당) 평균, 분산 등의 값을 가정하지 않고 진행하는 통계분석

통계적 실험이란?

  • 정의 : 어떤 목적을 가지고 관찰을 통해 결과(측정값)를 얻어내는 것
  • 목적 : 통계적 추론을 통해 보다 진실에 가까운 값을 도출하기 위함.
  • 프로세스 : 가설 수립 → 실험 설계 → 데이터 수집 → 추론 및 결론 도출

 

2.  A/B TEST

A/B 테스트란?

A/B 테스트는 마케팅 고객데이터 분석 중 가장 널리 사용되는 방법.

과학에서 쓰여왔던 대조 실험과 같다.

해당 테스트의 목적은 1. 고객의 니즈파악 2. 최소 투자로 최대 이익을 창출하고자 하는 것에(ROI 상승) 목적이 있다.

 

  • 정의 : A/B TEST는 두가지 처리 방법 중 어떠한 쪽이 더 좋다는 것을 입증하기 위해 실험군을 두 그룹으로 나누어 진행하는 실험이다.
    • 버킷테스트 또는 분할 테스트라고도 불림
    • 종종 두 가지 처리 방법 중 하나는 기준이 되는 기존 방법이거나 아예 아무런 처리도 적용하지 않는 방법이 된다.
  • 목적
    • UI/UX 개선 : UI, UX가 불친절할 경우 이탈 가능성이 높다. 그러므로 이를 개선하는 작업이 중요하다.
    • 전환율 증가 : A/B 테스트를 통해 무엇이 효과가 있는지(또는 없는지) 파악하면 전환율 상승에 도움이 된다.
    • 매출 증가 : UX ㄷ개선시 전환율 상승 뿐만 아니라, 브랜드에 대한 고객 충성도도 높아진다. 
  • 주요 지표
    • 서비스 가입률
    • 재방문율
    • CTR(노출 대비 클릭률), CVR(클릭 대비 전환율, 구매전환율)
    • ROAS(캠페인 비용 대비 캠페인 수익)
    • eCPM(1000회 광고 노출당 얻은 수익)

 

A/B 테스트 프로세스

크게 5가지 단계로 진행된다.

1. 현행 데이터 탐색

  • 앞서 살펴본 주요 지표를 기준으로 현재 데이터 탐색

 

2. 가설 설정

  • 비즈니스 목표를 달성하는 데 필요한 KPI 정의
  • 전환율 증가를 위한 귀무가설, 대립가설을 설정
    • 귀무 가설
      • 통계학에서 처음부터 버릴 것을 예상하는 가설
      • 차이가 없거나 의미 있는 차이가 없는 경우의 가설
    • 대립가설
      • 귀무가설에 대립하는 명제

 

3. 유의수준 설정

  • 귀무가설이 맞을 때 오류를 얼마나 허용할 것인지 기준을 정하는 단계

 

4. 테스트 설계 및 실행

  • 사용자를 대조군과 실험군의 두 그룹으로 분리
  • 대조군에게 현재 버전, 실험군에게 새 버전을 노출

 

5. 테스트 결과 분석

  • 측정 항목(가설)에 대해 두 그룹의 결과를 분석.(검정 통계량 분석)
  • 대조군과 실험군 사이의 통계적으로 유의미한 차이가 있는지 확인

A/B 테스트 주의 사항

  • 적절한 표본 크기
  • 하나의 변수만 변경 : 두 가지 이상의 변수를 동시에 변경하면 어떤 변수가 영향을 미쳤는지 파악할 수 없다.
  • 무작위성
  • 적절한 분석 방법
  • 테스트 결과의 의미 : A/B 테스트 결과가 통계적으로 유의미하더라도 항상 실제로 의미 있는 결과인지 한번 더 생각해보아야 한다.
  • 정해진 기간 동안 진행 : 동일한 기간 동안 진행해야한다.

 

3. 유의수준 설정하기

유의수준

  • 정의 : 귀무가설이 맞을 때 기각할 확률
  • 표기 : α
  • 범용적 기준 : 5%, 1%, 10%
  • 신뢰도와의 관계 95%의 신뢰도를 기준으로 한다면 1-0.95인 0.05가 유의 수준

 

4. 검정통계량과 p-value

결과 해석

1. 검정 방식 정하기 & 검정 통계량 계산하기

귀무가설을 채택할지, 기각할지 결정할 수 있어야함.

 

검정 통계량이란 귀무가설을 채택 또는 기각하기 위해 사용하는 확률변수를 의미함.

→ 확률변수란, 특정 확률로 발생하는 각각의 결과를 수치값으로 표현하는 변수

→ 즉 확률에 대한 수치이므로, 0과 1 사이의 값을 가지게 됨

 

검정통계량은 표본 평균, 비율, 상관 계수 간의 차이 등 다양한 형태를 취할 수 있다. 검정방

식의 선택은 가설과 데이터 종류에 따라 달라진다.

 

 

2. p-value

p-value란? 어떤 사건이 우연히 발생할 확률

유의수준보다 p-value 가 작은 경우에 우연히 일어날 가능성이 거의 없어 대립가설을 채택하게 될 수 있다.

  • p-value가 0.05 보다 작다 = 우연히 일어났을 가능성이 거의 없다 = 인과관계가 있다고 추정 = 대립가설 채택
  • p-value가 0.05 보다 크다 = 우연히 일어났을 가능성이 높다 = 인과관계가 없다고 추정 = 대립가설 기각

 

 


파이썬 스탠다드 #1

 

 

[수업 목표]

  • Long Format과 Wide Format 변환을 이해합니다.
  • melt, stack, unstack 을 활용한 데이터 고급핸들링 기법을 숙지합니다.

 

1. Long Format과 Wide Format 변환

python에서는 long format과 wide format을 자유롭게 변환 시킬 수 있다.

Wide Format

  • 각 주제 또는 관찰단위가 단일 행으로 표시되는 구조
  • 한 대상에서 측정한 여러 측정값을 모두 한 행에 표시하고, 열이름으로 그 측정값의 의미를 나타낸 형태

Long Format

  • 하나의 열에 데이터를 나타내고 다른 열에 데이터에 대응하는 변수를 나타낸 형태
  • "긴 형식"이라고도 하며, 데이터를 기록할 때 하나의 관찰값이 하나의 행에 위치하도록 하는 형태!

 

함수(메서드)

  • pivot table
    • 변환 방향 : 정리된 표 생성(요약)
    • 특징 : 그룹화, 집계
  • melt
    • Wide → Long
    • 특징 : 컬럼을 행으로 변환
  • stack
    • Wide → Long
    • 특징 : 컬럼을 인덱스로 이동
  • unstack
    • Long → Wide
    • 특징 : 인덱스를 컬럼으로 이동
  • transpose
    • 행 ↔︎ 열
    • 특징 : 전체 행렬 변환

 

2. Transpose, melt, stack, unstack

Transpose

  • 개념 : 데이터의 열과 행을 바꿔주는 전치 함수
  • 문법 : 데이터프레임명.T
  • 특징 : 열이 많을 경우 간단한 행렬전환을 통해 구조를 살펴볼 수 있다.
  • 주의점 : 데이터 크기가 큰 경우 시간이 오래 걸릴 수 있다. 그러므로 행렬전환 이전에 head() 등으로 전체 데이터를 잘라준 다음 구조를 파악해주는 것이 좋다.

Pivot table

  • 개념 : Index, Columns, Values, Aggfunc 을 직접 선언하여 테이블을 변환하는 함수 특정 열을 기준으로 데이터를 요약하고, 새로운 형태의 표로 변환
  • pd.pivot_table(데이터프레임명, index=컬럼명, columns=컬럼명, values=컬럼명, aggfunc=연산방식)
    • index: 인덱스(축) 으로 사용될 열
    • columns: 열로 사용될 열
    • values: 값으로 사용될 열
    • aggfunc: 연산 방식 
  • 특징 : index, values, aggfunc 입력을 List형식으로 지정할 수 있다.
  • 주의점 : 필수 파라미터가 존재함. Columns 를 제외한 데이터 프레임명, index, values, aggfunc

Melt

  • 알아두면 유용하게 쓸 수 있는 데이터 프레임 재구조화 메서드
  • 피벗 형태의 테이블을 기존 형태로 바꿔주는 역할도 수행한다.
  • 개념 : 데이터프레임의 컬럼을 열로 바꿔주는 메서드
  • 데이터프레임명.melt(id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None, ignore_index=True)
    • id_vars : 기준이 될 열
    • value_vars : 기준열에 대한 하위 카테고리를 나열할 열을 선택
    • var_name : 카테고리들이 나열된 열의 이름 설정
    • value_name : 카테고리들의 값이 나열될 열의 이름 설정
    • col_leve : multi index의 경우 melt를 수행할 레벨을 설정
    • ignore_index : 인덱스를 1,2,3, ... , n으로 설정할지 여부입니다. 디폴트값은 True로 1,2,3, ... , n으로 설정됨
  • 특징 : 피벗 형태의 테이블을 기존 형태로 바꿔주는 역할을 수행

Stack

  • 알아두면 유용하게 쓸 수 있는 데이터 프레임 재구조화 메서드
  • 개념 : 컬럼을 인덱스의 하위 레벨로 변환
  • 데이터프레임명.stack(level=-1, dropna=True)
    • level: stack을 수행할 인덱스 레벨을 지정합니다. 기본값은 -1로, 마지막 인덱스 레벨을 사용
    • dropna: 스택을 수행한 결과에서 결측값을 제거할지 여부를 지정. 기본값은 True로, 결측값을 제거함
  • 특징 : 멀티인덱스 처리 가능

Unstack

  • 알아두면 유용하게 쓸 수 있는 데이터 프레임 재구조화 메서드
  • 개념 : 인덱스 레벨을 컬럼으로 변환
  • 데이터프레임명.unstack(level=-1, dropna=True)
    • level: unstack을 수행할 인덱스 레벨을 지정. 기본값은 -1로, 마지막 인덱스 레벨을 사용
    • fill_value: unstack을 수행한 결과에서 결측값을 채울 값을 지정. 기본값은 None으로, 결측값을 그대로 둠
  • 특징 : 멀티인덱스 처리 가능

Stack ↔︎ Unstack : 조립은 분해의 역순.

 

 


아티클 스터디 - 데이터 분석가가 갖춰야할 9가지 역량.

 

 

하드 스킬

1) 사용 언어

주로 SQL 사용. 심화된 분석이 필요할 때 파이선 사용 속한 조직 및 분석 환경에 따라 사용하는 프로그램이 다름.

2) 통계학

기초 통계학 관련 내용을 익혀두면 도움이 된다.

3) 도메인 및 비즈니스에 대한 이해

도메인에 다라 정의해야 할 문제와 비즈니스가 다르므로 서비스 전반을 이해하는데 반드시 필요하다.

4) 툴을 다루는 역량

SaaS 툴과 BI 툴은 데이터 기반의 의사결정을 빠르게 할 수 있는 환경을 위해 필요하다.

5) 업무 자동화와 데이터 엔지니어링

일회성 분석의 자동화

소프트 스킬

6) 커뮤니케이션 능력

다양한 직무의 관점으로 바라보고, 모두가 이해할 수 있는 언어로 바꿀 수 있는지가 중요하다.

7) 협업 능력과 태도

다양한 직무의 팀원들과 협업 및 커뮤니케이션을 함. 그들이 잘 이해할 수 있는 소통 방식과 태도를 갖춰야함.

8) 문제 정의 및 문제 해결 능력

문제를 논리적으로 정의하고, 현상에 대한 파악을 토대로 다양한 분석 방법론을 시도하는 것이 중요

9) 보고서 작성

비즈니스 관점의 표현과 언어를 사용해 보고서 작성시 협업은 물론, 이해 관계자들을 설득하기 용이하다.

  • 주요 포인트 : 9가지 역량 중 크게 하드 스킬과 소프트 스킬로 나눌 수 있다.

 

  • 인사이트 : 하드 스킬과 소프트 스킬로 나뉘어진 9가지 역량에 대해 살펴 보았다. 조금 더 거시적인 관점에서 역량들이 필요한 이유를 생각 해보았다. 해당 역량들이 필요한 목적은 다양한 직무의 관점에서 보았을 때도 설득력 있는 분석을 전달하기 위해서이다. 본문의 9가지 역량을 강화하면서 목적도 잊지 않아야 한다 생각합니다.

 

- 용어 정리 :

데이터 드리븐(Data Driven) : 데이터를 기반으로 의사결정하는 것을 의미합니다. 즉, 데이터가 모든 의사결정을 좌지우지한다는 것


기능 조직 : 비슷한 기능(업무)을 수행하는 사람들끼리 묶는 방식

ex) 마케팅팀, 인사팀, 생산팀

 

목적 조직 : 제품, 고객, 지역 등 목적에 따라 조직을 나누는 방식

ex) 제품군별로 또는 지역별로 부서를 나눔.

 

 


 

마무리

어우 오늘 하루 진짜 꽉꽉 채워서 바빴던것 같다. 고생했다 오석준아..