데이터분석

dfSummary vs skim

DEDS 2025. 4. 2. 11:03
728x90

summarytools의 dfSummary와 skimpy의 skim은 데이터 탐색(EDA, Exploratory Data Analysis) 을 
빠르게 수행할 수 있게 도와주는 Python 패키지입니다.

 

  • dfSummary (from summarytools)
    dfSummary는 R의 summarytools::dfSummary() 함수에서 영감을 받은 Python 버전으로,
    Pandas DataFrame에 대해 변수별 요약 통계를 깔끔하게 보여주는 도구입니다.

!pip install summarytools # colab에서 실행시 설치
import pandas as pd
import seaborn as sns
from summarytools import dfSummary
df = sns.load_dataset( 'iris' )
dfSummary(df)

 

항목 설명
Variable 컬럼명
Type 데이터 타입 (int, float 등)
Missing 결측치 개수 및 비율
Mean, Std, Min, Max 수치형 데이터에 대한 통계치
Top values 가장 많이 나오는 값 + 비율
Histogram 분포 시각화 (텍스트 기반)

 

정보 출력 가능(HTML 등)

summary = dfSummary(df)
summary.to_html('dataset_summary.html') # html 출력
summary.to_json('dataset_summary.json') #json 출력
summary.to_csv('dataset_summary.csv') # csv 출력

 

  • skim (from skimpy)
    skimpy의 skim() 함수는 간단하면서도 핵심적인 통계를 빠르게 출력해주는 도구로,
    R의 skimr::skim()에서 영감을 받았습니다.
!pip install skimpy # colab에서 실행시 
import pandas as pd
import seaborn as sns
from skimpy import skim
df = sns.load_dataset( 'iris' )
skim(df)

 

 

항목 설명
name 컬럼명
dtype 데이터타입
missing 결측수 및 비율
unique 고유값 갯수(범주형컬럼)
mean,sd,min,max 수치형통계 요약
p25,p50, p100 사분위수(수치형)

 

빠르고 간단하여 CLI 스타일 텍스트 출력에 적합 (콘솔에서 바로 보기 편함)

 

dfSummary vs skim

항목 dfSummary skim
영감 받은 도구 R의 dfSummary R의 skimr::skim()
출력 형태 HTML + 텍스트 (예쁘게 보기 좋음) 콘솔 텍스트 (빠른 확인)
시각적 요소 간단한 텍스트 히스토그램 포함 없음
사용 목적 자세하고 시각적인 EDA 가볍고 빠른 요약 통계
의존성 pandas, IPython, tabulate 등 pandas, numpy 등 최소

 

728x90

'데이터분석' 카테고리의 다른 글

pandas 컬럼명 변경  (0) 2025.04.08
비모수검정  (0) 2025.04.08
정규성 검정(Normality Tests)  (0) 2025.04.08
T-Test(T-검정)  (0) 2025.04.08
파이썬 파일 읽는 방법(csv,json,excel,parquet,avro)  (0) 2025.04.01