데이터분석

분석을 위한 통계(Statistics)3

DEDS 2025. 4. 14. 11:15
728x90

피어슨 상관계수 (Pearson Correlation)

 

피어슨 상관계수는 두 연속형 변수 간의 직선적(선형) 관계를 평가합니다.
이 계수는 -1에서 1 사이의 값을 가지며, 두 변수 간 관계의 강도와 방향을 나타냅니다.

피어슨 상관계수는 상관관계의 한 형태로, 주로 스피어만 상관계수(Spearman’s correlation)와 같이 비선형 관계를 분석할 때 사용하는 다른 방식과 구분됩니다.

 

계산방법

피어슨 상관계수의 공식은 다음과 같습니다.

피어슨 상관계수는 한 변수가 다른 변수와 얼마나 함께 변하는지를 계산합니다.

1에 가까운 값은 강한 양(+)의 상관관계를 나타내고,
-1에 가까운 값은 강한 음(-)의 상관관계를 나타냅니다.

 

간단한 파이썬 코드

import numpy as np
from scipy.stats import pearsonr

# Sample data
x = np.array([10, 20, 30, 40, 50])
y = np.array([15, 25, 35, 45, 55])

# Calculating Pearson Correlation
corr, _ = pearsonr(x, y)
print(f"Pearson Correlation Coefficient: {corr}")

Pearson Correlation Coefficient: 0.9999999999999998

해석: 강한 양의 상관관계를 가지고 있음을 보여주고 있다.

만약 이 상관관계를 가진 채로 머신러닝 프로젝트를 진행 중이라면, 과적합(overfitting)을 의심해보아야 합니다.

 

경제 지표: 소비자 신뢰도와 소매 판매량 간의 관계를 조사

헬스케어 분석: 신체 활동에 사용한 시간과 혈압 수치 간의 관계 분석

교육 성취도: 숙제에 들인 시간과 학업 성취 간의 관계

기술 사용: 소셜 미디어 사용 시간과 스트레스 또는 행복감 간의 관계

부동산 가격 분석: 소득수준과 소유 부동산 가격간의 관계

 

Mann-Whitney U 검정

Mann-Whitney U 검정데이터가 정규분포를 따르지 않을 때, 두 개의 독립된 집단 간 차이를 평가하는 검정입니다.

이 검정은 정규성 가정을 만족하지 않는 경우, T-검정(T-test)의 대안으로 사용됩니다.

 

계산 방식

Mann-Whitney U 통계량은 두 집단을 합친 전체 데이터의 순위(rank)를 기준으로 계산됩니다.

  • UMann-Whitney U 통계량입니다.
  • R₁R₂는 각각 첫 번째 그룹두 번째 그룹의 순위 합입니다.
  • n₁n₂는 두 그룹의 표본 크기입니다.

간단한 Python 코드

from scipy.stats import mannwhitneyu
import numpy as np

# Sample data: Two groups
group1 = np.random.normal(5.0, 1.5, 30)
group2 = np.random.normal(6.0, 1.5, 30)

# Performing Mann-Whitney U Test
u_stat, p_val = mannwhitneyu(group1, group2)
print(f"U Statistic: {u_stat}, P-Value: {p_val}")

U Statistic: 274.0, P-Value: 0.009468269708615267

U 통계량: 274.0
P-값: 0.009
이 P-값은 일반적인 알파 수준인 0.05보다 낮아, 두 그룹의 중앙값 순위에 통계적으로 유의미한 차이가 있음을 나타냅니다. Mann-Whitney U 테스트 결과는 두 그룹의 분포가 동일하지 않음을 시사합니다.

  • 약물 반응: 두 가지 약물을 복용한 후 환자 데이터에서 증상 심각도의 변화를 데이터가 정규 분포를 따르지 않는 경우에도 적용
  • 직무 만족도: 부서를 옮길 좋은 시점이 될 수 있습니다. 이직할 부서를 결정하기 위해, 고스트레스 부서와 저스트레스 부서의 직원들 간의 직무 만족도 수준을 비교
  • 교재 효과: 두 가지 교재가 학생 참여도에 미치는 영향을 비정규 분포 데이터를 사용해 결정
  • 전자상거래 배송 시간: 두 택배 서비스의 배송 시간대를 비교
  • 운동이 기분에 미치는 영향: 두 가지 종류의 단기 운동이 기분 개선에 미치는 영향을 비모수 데이터에 집중하여 조사

지금까지 데이터 분석에 대한 통계량에 대해 살펴보았습니다.

 

분석을 위한 통계(Statistics)1

분석을 위한 통계(Statistics)2

 

728x90