728x90

duckdb 3

DuckDB-3 (Parquet 및 Copy)

Parquet 파일 생성 및 조회우선 Parquet 파일이 없으면 생성부터 시작합니다.import pandas as pd# 예시 DataFramedf = pd.DataFrame({ 'region': ['Seoul', 'Busan', 'Seoul', 'Incheon', 'Busan', 'Seoul'], 'sales': [100, 200, 150, 180, 210, 170]})# Parquet 저장df.to_parquet("sales.parquet", index=False) Parquet 파일 조회하는 예입니다.import duckdb# DuckDB에서 Parquet 읽기 (Pandas 없이)query = """ SELECT region, COUNT(*) AS cnt, AVG(sales) A..

데이터분석 2025.04.10

DuckDB-2(테이블 활용)

RDBMS처럼 사용하여 테이블을 만들고, 데이터를 저장하고 관리하는 방법입니다. DuckDB는 내장형이지만 SQL을사용해서 테이블 생성, INSERT, SELECT 등 대부분의 관계형 DB 작업이 가능합니다. 1. DuckDB에 테이블 생성하고 데이터 삽입하기import duckdb# DuckDB 연결 (메모리 상에서 작동하거나, 파일 저장 가능)con = duckdb.connect("myduckdb.db") # 'myduckdb.db' 파일 생성됨# 1. 테이블 생성 (SQL 문법 그대로 사용)con.execute(""" CREATE TABLE users ( id INTEGER, name TEXT, age INTEGER );""")# 2. 데이터 삽입c..

데이터분석 2025.04.09

DuckDB-1 (파일SQL)

DuckDB는 데이터 분석가, 엔지니어, 사이언티스트들 사이에서 Pandas를 대체할 차세대 도구로 주목받는 초고속 분석용 데이터베이스입니다.DuckDB는 "SQLite for Analytics" 라고 불리는 경량 분석용 SQL 데이터베이스로컬에서 설치 없이 사용할 수 있는 내장형(in-process) DBSQL 문법으로 대규모 데이터를 빠르게 분석 가능Pandas, Arrow, Parquet, CSV 등 다양한 형식 지원메모리 사용량이 적고, 병렬 처리로 매우 빠름 Pandas로 다루기 벅찬 대용량 파일 처리#csv 파일 생성import duckdbfrom sklearn.datasets import load_irisimport pandas as pd# iris 데이터 불러오기iris = load_iri..

데이터분석 2025.04.08
728x90