'데이터분석' 카테고리의 글 목록 (2 Page)

728x90

데이터분석 15

정규성 가정을 만족하지 않을 때 사용하는 것이 바로 비모수 검정 (Non-parametric test)입니다.대표적으로 Wilcoxon과 Mann–Whitney U 검정이 있고, 각각 다음과 같은 상황에서 사용됩니다. 1. Wilcoxon Signed-Rank Test (윌콕슨 부호 순위 검정)대응표본(같은 그룹의 사전-사후) 비교: Wilcoxon Signed-Rank Test정규성 없을 때 paired T-test 대신 사용from scipy.stats import wilcoxonbefore = [60, 65, 70, 66, 72, 68, 75, 70, 64, 69]after = [63, 67, 74, 69, 76, 70, 78, 72, 66, 71]stat, p = wilcoxon(before,..

데이터분석 2025.04.08

정규성 검정(Normality Tests)

T-검정, 회귀분석, ANOVA 같은 통계 분석에서 데이터가 정규분포(normal distribution)를 따른다는 가정은 매우 핵심적입니다. 이 정규성(normality)을 확인하는 방법에는 통계적 검정과 시각화 두 가지가 있습니다. 정규성 검정 방법 방법설명함수Shapiro-Wilk Test샘플이 정규분포인지 확인하는 가장 널리 쓰이는 방법일반적인 정규성 검정 (n scipy.stats.shapiro()Kolmogorov–Smirnov Test표본 분포와 정규분포 비교 (샘플 많을 때)scipy.stats.kstest()Anderson-Darling Test여러 분포 비교 지원, 더 정밀scipy.stats.anderson()QQ Plot (시각화)이론적인 정규분포와 실제 데이터 비교statsmod..

데이터분석 2025.04.08

T-Test(T-검정)

통계학에서 가장 널리 쓰이는 검정 중 하나로, 두 집단의 평균 차이가 통계적으로 유의미한지 확인할 때 사용합니다. 두 그룹의 평균이 실제로 차이가 있는지를 확인하는 통계적 방법→ “우연한 결과가 나온 것일까? 아니면 실제 평균이 다른 걸까?” 를 판단하는 도구입니다. 사용목적두 그룹의 평균 차이 검정표본 수가 작을 때도 사용 가능정규분포(또는 근사) 가정이 필요함 T-Test 유형유형라이브러리 설명예시단일표본 T-검정(One Sample)ttest_1samp(그룹,특정값)한 집단의 평균이 특정 값과 다른지 검정"우리 반 평균 수학점수는 전국 평균 70점과 다를까?"독립표본 T-검정(Two Sample / Independent)ttest_ind(그룹1,그룹2)서로 다른 두 집단(예: 실험군과 대조군) 의 ..

데이터분석 2025.04.08

dfSummary vs skim

summarytools의 dfSummary와 skimpy의 skim은 데이터 탐색(EDA, Exploratory Data Analysis) 을 빠르게 수행할 수 있게 도와주는 Python 패키지입니다. dfSummary (from summarytools) dfSummary는 R의 summarytools::dfSummary() 함수에서 영감을 받은 Python 버전으로,Pandas DataFrame에 대해 변수별 요약 통계를 깔끔하게 보여주는 도구입니다. !pip install summarytools # colab에서 실행시 설치import pandas as pdimport seaborn as snsfrom summarytools import dfSummarydf = sns.load_dataset( 'ir..

데이터분석 2025.04.02

파이썬 파일 읽는 방법(csv,json,excel,parquet,avro)

파이썬에서 파일 읽는 방법 CSV 파일#Loading a CSVimport pandas as pd# Create URLurl = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/data.csv'df= pd.read_csv(url) Excel 파일#Loading an Excel File# Create URLurl = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/data.xlsx'# Load datadf = pd.read_excel(url, sheet_name=0, header=0)#첫 번째 시트를 불러옴 (0은 인덱스, 'Sheet1' 같은 이름도 사용 가능)#0번째(첫 번째) ..

데이터분석 2025.04.01

1 2

데이터엔지니어와 데이터분석

데이터 엔지니어링과 데이터 분석에 대한 정보를 공유합니다.

avro, t검정, dfsummary, 데이터엔지니어, 추천종목#단기매매, one-hot인코딩, spam분류, 주식분석, pykrx, replace, parquet, randomforestregressor, 카이제곱, t-test, getdummy, 스팸분류, 주가분석#상승종목#, 머신러닝, duckdb, 주식분석#종목분석,

Today :
Yesterday :

728x90

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

데이터분석 15

티스토리툴바