728x90
반응형

데이터엔지니어 2

DeepSeek SmallPond

DeepSeek SmallPond란?데이터 엔지니어링 배치 및 스트리밍 프로세스는 Apache Spark가 주로 사용되었습니다.실제 엔지니어가 작업을 하다 보면 설치가 쉽고 가벼운 데이터 처리 프레임워크의 필요성이 있습니다.이에 적합한 솔루션이 DeepSeek SmallPond입니다.DeepSeek SmallPond는 DeepSeek AI에서 개발한 DuckDB와 3FS 위에 구축된 분산형 데이터 처리 프레임워크입니다. 특징 및 장점DuckDB 기반: DuckDB는 고성능의 인메모리 OLAP SQL 엔진으로, 이를 활용하여 빠른 데이터 처리 수행3FS 통합: 3FS는 고성능 분산 파일 시스템으로, SSD 및 RDMA 네트워크에 최적화되어 있어 대규모 데이터셋을 효율적으로 처리경량화된 구조: 복잡한 인프..

dfSummary vs skim

summarytools의 dfSummary와 skimpy의 skim은 데이터 탐색(EDA, Exploratory Data Analysis) 을 빠르게 수행할 수 있게 도와주는 Python 패키지입니다. dfSummary (from summarytools) dfSummary는 R의 summarytools::dfSummary() 함수에서 영감을 받은 Python 버전으로,Pandas DataFrame에 대해 변수별 요약 통계를 깔끔하게 보여주는 도구입니다. !pip install summarytools # colab에서 실행시 설치import pandas as pdimport seaborn as snsfrom summarytools import dfSummarydf = sns.load_dataset( 'ir..

데이터분석 2025.04.02
728x90
반응형