728x90

데이터분석 15

비모수검정

정규성 가정을 만족하지 않을 때 사용하는 것이 바로 비모수 검정 (Non-parametric test)입니다.대표적으로 Wilcoxon과 Mann–Whitney U 검정이 있고, 각각 다음과 같은 상황에서 사용됩니다.  1. Wilcoxon Signed-Rank Test (윌콕슨 부호 순위 검정)대응표본(같은 그룹의 사전-사후) 비교: Wilcoxon Signed-Rank Test정규성 없을 때 paired T-test 대신 사용from scipy.stats import wilcoxonbefore = [60, 65, 70, 66, 72, 68, 75, 70, 64, 69]after = [63, 67, 74, 69, 76, 70, 78, 72, 66, 71]stat, p = wilcoxon(before,..

데이터분석 2025.04.08

정규성 검정(Normality Tests)

T-검정, 회귀분석, ANOVA 같은 통계 분석에서 데이터가 정규분포(normal distribution)를 따른다는 가정은 매우 핵심적입니다. 이 정규성(normality)을 확인하는 방법에는 통계적 검정과 시각화 두 가지가 있습니다. 정규성 검정 방법 방법설명함수Shapiro-Wilk Test샘플이 정규분포인지 확인하는 가장 널리 쓰이는 방법일반적인 정규성 검정 (n scipy.stats.shapiro()Kolmogorov–Smirnov Test표본 분포와 정규분포 비교 (샘플 많을 때)scipy.stats.kstest()Anderson-Darling Test여러 분포 비교 지원, 더 정밀scipy.stats.anderson()QQ Plot (시각화)이론적인 정규분포와 실제 데이터 비교statsmod..

데이터분석 2025.04.08

T-Test(T-검정)

통계학에서 가장 널리 쓰이는 검정 중 하나로, 두 집단의 평균 차이가 통계적으로 유의미한지 확인할 때 사용합니다. 두 그룹의 평균이 실제로 차이가 있는지를 확인하는 통계적 방법→ “우연한 결과가 나온 것일까? 아니면 실제 평균이 다른 걸까?” 를 판단하는 도구입니다. 사용목적두 그룹의 평균 차이 검정표본 수가 작을 때도 사용 가능정규분포(또는 근사) 가정이 필요함 T-Test 유형유형라이브러리 설명예시단일표본 T-검정(One Sample)ttest_1samp(그룹,특정값)한 집단의 평균이 특정 값과 다른지 검정"우리 반 평균 수학점수는 전국 평균 70점과 다를까?"독립표본 T-검정(Two Sample / Independent)ttest_ind(그룹1,그룹2)서로 다른 두 집단(예: 실험군과 대조군) 의 ..

데이터분석 2025.04.08

dfSummary vs skim

summarytools의 dfSummary와 skimpy의 skim은 데이터 탐색(EDA, Exploratory Data Analysis) 을 빠르게 수행할 수 있게 도와주는 Python 패키지입니다. dfSummary (from summarytools) dfSummary는 R의 summarytools::dfSummary() 함수에서 영감을 받은 Python 버전으로,Pandas DataFrame에 대해 변수별 요약 통계를 깔끔하게 보여주는 도구입니다. !pip install summarytools # colab에서 실행시 설치import pandas as pdimport seaborn as snsfrom summarytools import dfSummarydf = sns.load_dataset( 'ir..

데이터분석 2025.04.02

파이썬 파일 읽는 방법(csv,json,excel,parquet,avro)

파이썬에서 파일 읽는 방법 CSV 파일#Loading a CSVimport pandas as pd# Create URLurl = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/data.csv'df= pd.read_csv(url) Excel 파일#Loading an Excel File# Create URLurl = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/data.xlsx'# Load datadf = pd.read_excel(url, sheet_name=0, header=0)#첫 번째 시트를 불러옴 (0은 인덱스, 'Sheet1' 같은 이름도 사용 가능)#0번째(첫 번째) ..

데이터분석 2025.04.01
728x90