728x90
파이썬에서 파일 읽는 방법
- CSV 파일
#Loading a CSV
import pandas as pd
# Create URL
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/data.csv'
df= pd.read_csv(url)
- Excel 파일
#Loading an Excel File
# Create URL
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/data.xlsx'
# Load data
df = pd.read_excel(url, sheet_name=0, header=0)
#첫 번째 시트를 불러옴 (0은 인덱스, 'Sheet1' 같은 이름도 사용 가능)
#0번째(첫 번째) 행을 열 이름(header)으로 사용
- JSON 파일
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/data.json'
# Load data
df = pd.read_json(url, orient='columns')
# JSON 데이터가
# 1. {컬럼명1: [값11, 값12, ...],컬럼명2: [값21, 값22, ...] } 구조일 때 사용합니다.(columns)
# 2. [{"col1": val1, "col2": val2}, ...](records)
- Parquet 파일
#Loading a Parquet File
url = 'https://machine-learning-python-cookbook.s3.amazonaws.com/data.parquet'
# Load data
df = pd.read_parquet(url)
- AVRO 파일
##!pip install fastavro # colab install
import requests
import fastavro
import pandas as pd
# URL에서 avro 파일 다운로드
url = 'https://machine-learning-python-cookbook.s3.amazonaws.com/data.avro'
r = requests.get(url)
with open('data.avro', 'wb') as f:
f.write(r.content)
# fastavro로 읽기
with open('data.avro', 'rb') as f:
reader = fastavro.reader(f)
records = [record for record in reader]
# DataFrame으로 변환
df = pd.DataFrame(records)
df
Avro파일의 스키마 지정 읽기
import fastavro
# 읽기 스키마 정의
reader_schema = {
"type": "record",
"name": "User",
"fields": [
{"name": "name", "type": "string"}
]
}
with open('data.avro', 'rb') as f:
reader = fastavro.reader(f, reader_schema=reader_schema)
for record in reader:
print(record) # age는 제외된 상태로 읽힘
728x90
'데이터분석' 카테고리의 다른 글
pandas 컬럼명 변경 (0) | 2025.04.08 |
---|---|
비모수검정 (0) | 2025.04.08 |
정규성 검정(Normality Tests) (0) | 2025.04.08 |
T-Test(T-검정) (0) | 2025.04.08 |
dfSummary vs skim (0) | 2025.04.02 |