데이터엔지니어와 데이터분석

전체 글 33

이사갈때 전기요금 확인할때 계량기 마다 보는 방법이 다른것으로 알고 있습니다. 계량기만 보는데 계속 숫자가 바뀌어서 처음에는 당황을 하였습니다. 저희집은 Advanced E-type이나 E-ypte가읽는 방법인 동 계량기를 보면 왼쪽 위에 숫자 01~10 그리고 바뀌는 숫자가7일때 숫자를 한전에 알려주시면 요금을 알려줍니다. 07일때 숫자를 보고 한전에 알려주시면 됩니다.실제 사용용량은 고지서의 당월지침의 숫자를 빼주면 사용 kw입니다. 번호표시내용01현재날짜 (년, 월, 일)02현재시간 (시 : 분 : 초)03정기검침일04전월 누적 수전 유효전력량(kWh)_전체05전월 수전 최대수요전력(kW)06전월 수전 최대수요전력 발생 날짜06전월 수전 최대수요전력 발생 시간07현재 누적 수전 유효전력량(kWh)..

생활 2025.04.22

[ML]멜버른 주택가격 예측-회귀분석

Kaggle의 멜버른 주택가격 데이터셋을 사용하여 예측을 하도록 하겠습니다.데이터는 아래 주소에서 다운로드 받으셔서 사용하시면 됩니다.Melbourne Housing Dataset Melbourne Housing DatasetDiscover Insights and Trends from Housing Marketwww.kaggle.com데이터 로드import pandas as pddf = pd.read_csv('/content/Melbourne_housing.csv') #pd.set_option('display.max_column', 100)df.head().T컬럼이 많은 경우 df.head().T 로 전치(transpose)해서 보시면 편합니다.set_option을 사용해서 모든 컬럼이 보이게 하셔도 됩..

카테고리 없음 2025.04.21

[ML] 스팸메일 분류 모델(MultinomialNB)

스팸 메일 분류 예측 모델에 대하여 진행해 보고자 합니다.데이터는 kaggle 스팸 수집 데이터셋 에서 다운로드 받으시면 됩니다. SMS Spam Collection DatasetCollection of SMS messages tagged as spam or legitimatewww.kaggle.com위 데이터를 colab에 올려서 사용 하시면됩니다. 데이터 읽기import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from sklearn.model_selection import train_test_split df = pd.read_csv('/content/spam.csv', encoding=..

머신러닝 2025.04.18

pykrx 라이브러리 사용법2

종목별 DIV/BPS/PER/EPS 조회get_market_fundamental 함수는 DIV/BPS/PER/EPS/PBR를 조회합니다.df = stock.get_market_fundamental("20250416")df.head() default가 KOSPI임으로 조회가 안되는 종목이 있으니 market = "ALL" 설정해 주십시오.df = stock.get_market_fundamental("20250416", market="ALL")#market 값은 KOSPI / KOSDAQ / KONEX / ALL 입니다. 일자별 DIV/BPS/PER/EPS 조회get_market_fundamental 함수는 특정 종목에 대해 입력된 기간의 DIV/BPS/PER/EPS/PBR 리턴합니다. df = stock..

주식분석프로그램 2025.04.17

pykrx 라이브러리 사용법1

pykrx는 한국거래소(KRX)에서 제공하는 주식/ETF/지수 등의 데이터를 파이썬에서 쉽게 조회할 수 있도록 지원해주는 라이브러리입니다. 주식 백테스트, 분석 등에 사용합니다. 설치방법!pip install pykrx #colab 기준 주요 함수기능함수상장 종목 코드 리스트get_market_ticker_list()상장 종목 코드명 조회get_market_ticker_name()종가/시가/거래량 등get_market_ohlcv()일정기간 종목의 가격변동조회get_market_price_chage() 샘플코드 종목리스트 조회 from pykrx import stock #주식from pykrx import bond #채권tickers = stock.get_market_ticker_list(date="202..

주식분석프로그램 2025.04.17

[ML] 타이타닉 생존 예측 분류모델

간단한 분류모델인 titanic 데이터를 활용한 생존 예측 분류 모델에 대하여 머신러닝 프로세스를알아보도록 하겠습니다. 매트릭의 성능지표 개선보다는 머신러닝 프로세스, 모델 훈련, 모델 비교 하는 방법에 대해서 알수 있습니다.다양한 머신러닝 모델에 대해서 반복적으로 경험하다 보면 프로세스가 익숙해 질것이니 코드를 수행해보시면서 익숙해 지시기 바랍니다. 1. 라이브러리 importimport pandas as pd # 판단스import seaborn as sns #그래프from sklearn.model_selection import train_test_split #훈련 및 테스트 분류from sklearn.preprocessing import LabelEncoder # 범주형 인코딩from sklearn..

머신러닝 2025.04.16

pandas vs datatable 파일 입출력 성능 비교

파일 입출력에 pandas와 유사한 라이브러리가 datatable과 dask가 있습니다.파일 입출력시 성능 차이가 커서 비교를 해 보았습니다.colab에서 한글문제가 있을 수 있으니 기존 글을 참고하시기 바랍니다. 테스트를 위한 100,000건 파일을 생성하기 위한 코드입니다.faker 라이브러리가 설치되어 있으면 첫줄은 skip 하시면 됩니다. 파일 생성 코드!pip install faker # 라이브러리 설치import pandas as pdimport numpy as npfrom faker import Fakerimport random# 초기 설정fake = Faker('ko_KR')num_rows = 100_000 # 10만 건# 랜덤 데이터 생성data = { "name": [fake...

데이터분석 2025.04.16

DeepSeek SmallPond

DeepSeek SmallPond란?데이터 엔지니어링 배치 및 스트리밍 프로세스는 Apache Spark가 주로 사용되었습니다.실제 엔지니어가 작업을 하다 보면 설치가 쉽고 가벼운 데이터 처리 프레임워크의 필요성이 있습니다.이에 적합한 솔루션이 DeepSeek SmallPond입니다.DeepSeek SmallPond는 DeepSeek AI에서 개발한 DuckDB와 3FS 위에 구축된 분산형 데이터 처리 프레임워크입니다. 특징 및 장점DuckDB 기반: DuckDB는 고성능의 인메모리 OLAP SQL 엔진으로, 이를 활용하여 빠른 데이터 처리 수행3FS 통합: 3FS는 고성능 분산 파일 시스템으로, SSD 및 RDMA 네트워크에 최적화되어 있어 대규모 데이터셋을 효율적으로 처리경량화된 구조: 복잡한 인프..

데이터엔지니어 2025.04.15

RSI 와 MACD

RSI(Relative Strength Index)와 MACD(Moving Average Convergence Divergence) 는 주식 및 암호화폐 등의 기술적 분석에서 자주 사용되는 보조 지표입니다. 1. RSI(Relative Strength Index) 계산 방법RSI는 일정 기간 동안의 가격 상승과 하락의 비율을 비교하여 과매수(overbought) 또는 과매도(oversold) 상태를 판단하는 지표입니다. RSI 공식RSI=100 − (100 / (1+RS))RS = 평균상승폭/평균하락폭 계산 방법 (보통 14일 기준) 1. 가격 변동량 계산각 날짜별로 전날 대비 상승폭(Up) 과 하락폭(Down) 을 구합니다.2. 평균 상승폭과 평균 하락폭 계산 (14일 기준) 첫 번째 RS..

주식분석프로그램 2025.04.14

분석을 위한 통계(Statistics)3

피어슨 상관계수 (Pearson Correlation) 피어슨 상관계수는 두 연속형 변수 간의 직선적(선형) 관계를 평가합니다.이 계수는 -1에서 1 사이의 값을 가지며, 두 변수 간 관계의 강도와 방향을 나타냅니다.피어슨 상관계수는 상관관계의 한 형태로, 주로 스피어만 상관계수(Spearman’s correlation)와 같이 비선형 관계를 분석할 때 사용하는 다른 방식과 구분됩니다. 계산방법피어슨 상관계수의 공식은 다음과 같습니다.피어슨 상관계수는 한 변수가 다른 변수와 얼마나 함께 변하는지를 계산합니다.1에 가까운 값은 강한 양(+)의 상관관계를 나타내고,-1에 가까운 값은 강한 음(-)의 상관관계를 나타냅니다. 간단한 파이썬 코드import numpy as npfrom scipy.stats imp..

데이터분석 2025.04.14

1 2 3 4

데이터엔지니어와 데이터분석

데이터 엔지니어링과 데이터 분석에 대한 정보를 공유합니다.

index제거, 상장주식수, t-test, spam분류, t검정, avro, 데이터엔지니어, duckdb, 시장거래금액, 파일한글인코딩, parquet, randomforestregressor, 스팸분류, getdummy, one-hot인코딩, 카이제곱, replace, dfsummary, pykrx, 머신러닝,

Today :
Yesterday :

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

전체 글 33

티스토리툴바