데이터분석

파이썬 파일 읽는 방법(csv,json,excel,parquet,avro)

DEDS 2025. 4. 1. 18:01
728x90

파이썬에서 파일 읽는 방법

 

  • CSV 파일
#Loading a CSV
import pandas as pd
# Create URL
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/data.csv'
df= pd.read_csv(url)

 

  • Excel 파일
#Loading an Excel File
# Create URL
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/data.xlsx'
# Load data
df = pd.read_excel(url, sheet_name=0, header=0)
#첫 번째 시트를 불러옴 (0은 인덱스, 'Sheet1' 같은 이름도 사용 가능)
#0번째(첫 번째) 행을 열 이름(header)으로 사용

 

  • JSON 파일
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/data.json'
# Load data
df = pd.read_json(url, orient='columns')
# JSON 데이터가 
# 1. {컬럼명1: [값11, 값12, ...],컬럼명2: [값21, 값22, ...] } 구조일 때 사용합니다.(columns)
# 2. [{"col1": val1, "col2": val2}, ...](records)

 

  • Parquet 파일
#Loading a Parquet File
url = 'https://machine-learning-python-cookbook.s3.amazonaws.com/data.parquet'
# Load data
df = pd.read_parquet(url)

 

  • AVRO 파일 
##!pip install fastavro  # colab install
import requests
import fastavro
import pandas as pd

# URL에서 avro 파일 다운로드
url = 'https://machine-learning-python-cookbook.s3.amazonaws.com/data.avro'
r = requests.get(url)
with open('data.avro', 'wb') as f:
    f.write(r.content)

# fastavro로 읽기
with open('data.avro', 'rb') as f:
    reader = fastavro.reader(f)
    records = [record for record in reader]

# DataFrame으로 변환
df = pd.DataFrame(records)
df

 

Avro파일의 스키마 지정 읽기

import fastavro

# 읽기 스키마 정의
reader_schema = {
    "type": "record",
    "name": "User",
    "fields": [
        {"name": "name", "type": "string"}
    ]
}

with open('data.avro', 'rb') as f:
    reader = fastavro.reader(f, reader_schema=reader_schema)
    for record in reader:
        print(record)  # age는 제외된 상태로 읽힘

 

728x90

'데이터분석' 카테고리의 다른 글

pandas 컬럼명 변경  (0) 2025.04.08
비모수검정  (0) 2025.04.08
정규성 검정(Normality Tests)  (0) 2025.04.08
T-Test(T-검정)  (0) 2025.04.08
dfSummary vs skim  (0) 2025.04.02