파이썬 파일 읽는 방법(csv,json,excel,parquet,avro)

데이터분석

파이썬 파일 읽는 방법(csv,json,excel,parquet,avro)

DEDS 2025. 4. 1. 18:01

728x90

파이썬에서 파일 읽는 방법

CSV 파일

#Loading a CSV
import pandas as pd
# Create URL
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/data.csv'
df= pd.read_csv(url)

Excel 파일

#Loading an Excel File
# Create URL
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/data.xlsx'
# Load data
df = pd.read_excel(url, sheet_name=0, header=0)
#첫 번째 시트를 불러옴 (0은 인덱스, 'Sheet1' 같은 이름도 사용 가능)
#0번째(첫 번째) 행을 열 이름(header)으로 사용

JSON 파일

url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/data.json'
# Load data
df = pd.read_json(url, orient='columns')
# JSON 데이터가 
# 1. {컬럼명1: [값11, 값12, ...],컬럼명2: [값21, 값22, ...] } 구조일 때 사용합니다.(columns)
# 2. [{"col1": val1, "col2": val2}, ...](records)

Parquet 파일

#Loading a Parquet File
url = 'https://machine-learning-python-cookbook.s3.amazonaws.com/data.parquet'
# Load data
df = pd.read_parquet(url)

AVRO 파일

##!pip install fastavro  # colab install
import requests
import fastavro
import pandas as pd

# URL에서 avro 파일 다운로드
url = 'https://machine-learning-python-cookbook.s3.amazonaws.com/data.avro'
r = requests.get(url)
with open('data.avro', 'wb') as f:
    f.write(r.content)

# fastavro로 읽기
with open('data.avro', 'rb') as f:
    reader = fastavro.reader(f)
    records = [record for record in reader]

# DataFrame으로 변환
df = pd.DataFrame(records)
df

Avro파일의 스키마 지정 읽기

import fastavro

# 읽기 스키마 정의
reader_schema = {
    "type": "record",
    "name": "User",
    "fields": [
        {"name": "name", "type": "string"}
    ]
}

with open('data.avro', 'rb') as f:
    reader = fastavro.reader(f, reader_schema=reader_schema)
    for record in reader:
        print(record)  # age는 제외된 상태로 읽힘

728x90

'데이터분석' 카테고리의 다른 글

pandas 컬럼명 변경 (0)	2025.04.08
비모수검정 (0)	2025.04.08
정규성 검정(Normality Tests) (0)	2025.04.08
T-Test(T-검정) (0)	2025.04.08
dfSummary vs skim (0)	2025.04.02

현재글파이썬 파일 읽는 방법(csv,json,excel,parquet,avro)

데이터엔지니어와 데이터분석

데이터 엔지니어링과 데이터 분석에 대한 정보를 공유합니다.

카이제곱, 스팸분류, dfsummary, 파일한글인코딩, 시장거래금액, one-hot인코딩, replace, t-test, 상장주식수, index제거, 머신러닝, duckdb, avro, pykrx, parquet, spam분류, 데이터엔지니어, t검정, getdummy, randomforestregressor,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

데이터엔지니어와 데이터분석

파이썬 파일 읽는 방법(csv,json,excel,parquet,avro)

'데이터분석' 카테고리의 다른 글

'데이터분석'의 다른글

티스토리툴바

파이썬 파일 읽는 방법(csv,json,excel,parquet,avro)

'데이터분석' 카테고리의 다른 글

'데이터분석'의 다른글

관련글

티스토리툴바