피어슨 상관계수 (Pearson Correlation)
피어슨 상관계수는 두 연속형 변수 간의 직선적(선형) 관계를 평가합니다.
이 계수는 -1에서 1 사이의 값을 가지며, 두 변수 간 관계의 강도와 방향을 나타냅니다.
피어슨 상관계수는 상관관계의 한 형태로, 주로 스피어만 상관계수(Spearman’s correlation)와 같이 비선형 관계를 분석할 때 사용하는 다른 방식과 구분됩니다.
계산방법
피어슨 상관계수의 공식은 다음과 같습니다.
피어슨 상관계수는 한 변수가 다른 변수와 얼마나 함께 변하는지를 계산합니다.
1에 가까운 값은 강한 양(+)의 상관관계를 나타내고,
-1에 가까운 값은 강한 음(-)의 상관관계를 나타냅니다.
간단한 파이썬 코드
import numpy as np
from scipy.stats import pearsonr
# Sample data
x = np.array([10, 20, 30, 40, 50])
y = np.array([15, 25, 35, 45, 55])
# Calculating Pearson Correlation
corr, _ = pearsonr(x, y)
print(f"Pearson Correlation Coefficient: {corr}")
Pearson Correlation Coefficient: 0.9999999999999998
해석: 강한 양의 상관관계를 가지고 있음을 보여주고 있다.
만약 이 상관관계를 가진 채로 머신러닝 프로젝트를 진행 중이라면, 과적합(overfitting)을 의심해보아야 합니다.
경제 지표: 소비자 신뢰도와 소매 판매량 간의 관계를 조사
헬스케어 분석: 신체 활동에 사용한 시간과 혈압 수치 간의 관계 분석
교육 성취도: 숙제에 들인 시간과 학업 성취 간의 관계
기술 사용: 소셜 미디어 사용 시간과 스트레스 또는 행복감 간의 관계
부동산 가격 분석: 소득수준과 소유 부동산 가격간의 관계
Mann-Whitney U 검정
Mann-Whitney U 검정은 데이터가 정규분포를 따르지 않을 때, 두 개의 독립된 집단 간 차이를 평가하는 검정입니다.
이 검정은 정규성 가정을 만족하지 않는 경우, T-검정(T-test)의 대안으로 사용됩니다.
계산 방식
Mann-Whitney U 통계량은 두 집단을 합친 전체 데이터의 순위(rank)를 기준으로 계산됩니다.
- U는 Mann-Whitney U 통계량입니다.
- R₁과 R₂는 각각 첫 번째 그룹과 두 번째 그룹의 순위 합입니다.
- n₁과 n₂는 두 그룹의 표본 크기입니다.
간단한 Python 코드
from scipy.stats import mannwhitneyu
import numpy as np
# Sample data: Two groups
group1 = np.random.normal(5.0, 1.5, 30)
group2 = np.random.normal(6.0, 1.5, 30)
# Performing Mann-Whitney U Test
u_stat, p_val = mannwhitneyu(group1, group2)
print(f"U Statistic: {u_stat}, P-Value: {p_val}")
U Statistic: 274.0, P-Value: 0.009468269708615267
U 통계량: 274.0
P-값: 0.009
이 P-값은 일반적인 알파 수준인 0.05보다 낮아, 두 그룹의 중앙값 순위에 통계적으로 유의미한 차이가 있음을 나타냅니다. Mann-Whitney U 테스트 결과는 두 그룹의 분포가 동일하지 않음을 시사합니다.
- 약물 반응: 두 가지 약물을 복용한 후 환자 데이터에서 증상 심각도의 변화를 데이터가 정규 분포를 따르지 않는 경우에도 적용
- 직무 만족도: 부서를 옮길 좋은 시점이 될 수 있습니다. 이직할 부서를 결정하기 위해, 고스트레스 부서와 저스트레스 부서의 직원들 간의 직무 만족도 수준을 비교
- 교재 효과: 두 가지 교재가 학생 참여도에 미치는 영향을 비정규 분포 데이터를 사용해 결정
- 전자상거래 배송 시간: 두 택배 서비스의 배송 시간대를 비교
- 운동이 기분에 미치는 영향: 두 가지 종류의 단기 운동이 기분 개선에 미치는 영향을 비모수 데이터에 집중하여 조사
지금까지 데이터 분석에 대한 통계량에 대해 살펴보았습니다.
'데이터분석' 카테고리의 다른 글
pandas vs datatable 파일 입출력 성능 비교 (0) | 2025.04.16 |
---|---|
분석을 위한 통계(Statistics)2 (0) | 2025.04.13 |
다중공선성(multicollinearity) (0) | 2025.04.10 |
분석을 위한 통계(Statistics)1 (0) | 2025.04.10 |
Colab 한글폰트 문제 해결 (0) | 2025.04.10 |