분석을 위한 통계(Statistics)3

데이터분석

분석을 위한 통계(Statistics)3

DEDS 2025. 4. 14. 11:15

728x90

피어슨 상관계수 (Pearson Correlation)

피어슨 상관계수는 두 연속형 변수 간의 직선적(선형) 관계를 평가합니다.
이 계수는 -1에서 1 사이의 값을 가지며, 두 변수 간 관계의 강도와 방향을 나타냅니다.

피어슨 상관계수는 상관관계의 한 형태로, 주로 스피어만 상관계수(Spearman’s correlation)와 같이 비선형 관계를 분석할 때 사용하는 다른 방식과 구분됩니다.

계산방법

피어슨 상관계수의 공식은 다음과 같습니다.

피어슨 상관계수는 한 변수가 다른 변수와 얼마나 함께 변하는지를 계산합니다.

1에 가까운 값은 강한 양(+)의 상관관계를 나타내고,
-1에 가까운 값은 강한 음(-)의 상관관계를 나타냅니다.

간단한 파이썬 코드

import numpy as np
from scipy.stats import pearsonr

# Sample data
x = np.array([10, 20, 30, 40, 50])
y = np.array([15, 25, 35, 45, 55])

# Calculating Pearson Correlation
corr, _ = pearsonr(x, y)
print(f"Pearson Correlation Coefficient: {corr}")

Pearson Correlation Coefficient: 0.9999999999999998

해석: 강한 양의 상관관계를 가지고 있음을 보여주고 있다.

만약 이 상관관계를 가진 채로 머신러닝 프로젝트를 진행 중이라면, 과적합(overfitting)을 의심해보아야 합니다.

경제 지표: 소비자 신뢰도와 소매 판매량 간의 관계를 조사

헬스케어 분석: 신체 활동에 사용한 시간과 혈압 수치 간의 관계 분석

교육 성취도: 숙제에 들인 시간과 학업 성취 간의 관계

기술 사용: 소셜 미디어 사용 시간과 스트레스 또는 행복감 간의 관계

부동산 가격 분석: 소득수준과 소유 부동산 가격간의 관계

Mann-Whitney U 검정

Mann-Whitney U 검정은 데이터가 정규분포를 따르지 않을 때, 두 개의 독립된 집단 간 차이를 평가하는 검정입니다.

이 검정은 정규성 가정을 만족하지 않는 경우, T-검정(T-test)의 대안으로 사용됩니다.

계산 방식

Mann-Whitney U 통계량은 두 집단을 합친 전체 데이터의 순위(rank)를 기준으로 계산됩니다.

U는 Mann-Whitney U 통계량입니다.
R₁과 R₂는 각각 첫 번째 그룹과 두 번째 그룹의 순위 합입니다.
n₁과 n₂는 두 그룹의 표본 크기입니다.

간단한 Python 코드

from scipy.stats import mannwhitneyu
import numpy as np

# Sample data: Two groups
group1 = np.random.normal(5.0, 1.5, 30)
group2 = np.random.normal(6.0, 1.5, 30)

# Performing Mann-Whitney U Test
u_stat, p_val = mannwhitneyu(group1, group2)
print(f"U Statistic: {u_stat}, P-Value: {p_val}")

U Statistic: 274.0, P-Value: 0.009468269708615267

U 통계량: 274.0
P-값: 0.009
이 P-값은 일반적인 알파 수준인 0.05보다 낮아, 두 그룹의 중앙값 순위에 통계적으로 유의미한 차이가 있음을 나타냅니다. Mann-Whitney U 테스트 결과는 두 그룹의 분포가 동일하지 않음을 시사합니다.

약물 반응: 두 가지 약물을 복용한 후 환자 데이터에서 증상 심각도의 변화를 데이터가 정규 분포를 따르지 않는 경우에도 적용
직무 만족도: 부서를 옮길 좋은 시점이 될 수 있습니다. 이직할 부서를 결정하기 위해, 고스트레스 부서와 저스트레스 부서의 직원들 간의 직무 만족도 수준을 비교
교재 효과: 두 가지 교재가 학생 참여도에 미치는 영향을 비정규 분포 데이터를 사용해 결정
전자상거래 배송 시간: 두 택배 서비스의 배송 시간대를 비교
운동이 기분에 미치는 영향: 두 가지 종류의 단기 운동이 기분 개선에 미치는 영향을 비모수 데이터에 집중하여 조사

지금까지 데이터 분석에 대한 통계량에 대해 살펴보았습니다.

분석을 위한 통계(Statistics)1

분석을 위한 통계(Statistics)2

728x90

'데이터분석' 카테고리의 다른 글

pandas vs datatable 파일 입출력 성능 비교 (0)	2025.04.16
분석을 위한 통계(Statistics)2 (0)	2025.04.13
다중공선성(multicollinearity) (0)	2025.04.10
분석을 위한 통계(Statistics)1 (0)	2025.04.10
Colab 한글폰트 문제 해결 (0)	2025.04.10

현재글분석을 위한 통계(Statistics)3

데이터엔지니어와 데이터분석

데이터 엔지니어링과 데이터 분석에 대한 정보를 공유합니다.

parquet, dfsummary, one-hot인코딩, 시장거래금액, index제거, 머신러닝, pykrx, 상장주식수, spam분류, 카이제곱, avro, 파일한글인코딩, replace, 데이터엔지니어, getdummy, t검정, randomforestregressor, t-test, duckdb, 스팸분류,

Today :
Yesterday :

데이터엔지니어와 데이터분석