728x90
summarytools의 dfSummary와 skimpy의 skim은 데이터 탐색(EDA, Exploratory Data Analysis) 을
빠르게 수행할 수 있게 도와주는 Python 패키지입니다.
- dfSummary (from summarytools)
dfSummary는 R의 summarytools::dfSummary() 함수에서 영감을 받은 Python 버전으로,
Pandas DataFrame에 대해 변수별 요약 통계를 깔끔하게 보여주는 도구입니다.
!pip install summarytools # colab에서 실행시 설치
import pandas as pd
import seaborn as sns
from summarytools import dfSummary
df = sns.load_dataset( 'iris' )
dfSummary(df)
항목 | 설명 |
Variable | 컬럼명 |
Type | 데이터 타입 (int, float 등) |
Missing | 결측치 개수 및 비율 |
Mean, Std, Min, Max | 수치형 데이터에 대한 통계치 |
Top values | 가장 많이 나오는 값 + 비율 |
Histogram | 분포 시각화 (텍스트 기반) |
정보 출력 가능(HTML 등)
summary = dfSummary(df)
summary.to_html('dataset_summary.html') # html 출력
summary.to_json('dataset_summary.json') #json 출력
summary.to_csv('dataset_summary.csv') # csv 출력
- skim (from skimpy)
skimpy의 skim() 함수는 간단하면서도 핵심적인 통계를 빠르게 출력해주는 도구로,
R의 skimr::skim()에서 영감을 받았습니다.
!pip install skimpy # colab에서 실행시
import pandas as pd
import seaborn as sns
from skimpy import skim
df = sns.load_dataset( 'iris' )
skim(df)
항목 | 설명 |
name | 컬럼명 |
dtype | 데이터타입 |
missing | 결측수 및 비율 |
unique | 고유값 갯수(범주형컬럼) |
mean,sd,min,max | 수치형통계 요약 |
p25,p50, p100 | 사분위수(수치형) |
빠르고 간단하여 CLI 스타일 텍스트 출력에 적합 (콘솔에서 바로 보기 편함)
dfSummary vs skim
항목 | dfSummary | skim |
영감 받은 도구 | R의 dfSummary | R의 skimr::skim() |
출력 형태 | HTML + 텍스트 (예쁘게 보기 좋음) | 콘솔 텍스트 (빠른 확인) |
시각적 요소 | 간단한 텍스트 히스토그램 포함 | 없음 |
사용 목적 | 자세하고 시각적인 EDA | 가볍고 빠른 요약 통계 |
의존성 | pandas, IPython, tabulate 등 | pandas, numpy 등 최소 |
728x90
'데이터분석' 카테고리의 다른 글
pandas 컬럼명 변경 (0) | 2025.04.08 |
---|---|
비모수검정 (0) | 2025.04.08 |
정규성 검정(Normality Tests) (0) | 2025.04.08 |
T-Test(T-검정) (0) | 2025.04.08 |
파이썬 파일 읽는 방법(csv,json,excel,parquet,avro) (0) | 2025.04.01 |