728x90
반응형

전체 글 33

T-Test(T-검정)

통계학에서 가장 널리 쓰이는 검정 중 하나로, 두 집단의 평균 차이가 통계적으로 유의미한지 확인할 때 사용합니다. 두 그룹의 평균이 실제로 차이가 있는지를 확인하는 통계적 방법→ “우연한 결과가 나온 것일까? 아니면 실제 평균이 다른 걸까?” 를 판단하는 도구입니다. 사용목적두 그룹의 평균 차이 검정표본 수가 작을 때도 사용 가능정규분포(또는 근사) 가정이 필요함 T-Test 유형유형라이브러리 설명예시단일표본 T-검정(One Sample)ttest_1samp(그룹,특정값)한 집단의 평균이 특정 값과 다른지 검정"우리 반 평균 수학점수는 전국 평균 70점과 다를까?"독립표본 T-검정(Two Sample / Independent)ttest_ind(그룹1,그룹2)서로 다른 두 집단(예: 실험군과 대조군) 의 ..

데이터분석 2025.04.08

데이터 중심 어플리케이션 - 4장

부호화와 발전→ 직역으로 번역때문에 책 내용이 이해가 어렵네요. 원문은 Encoding and Evolution 입니다.부호화보다는 인코딩이 더 나아보이네요. 발전도 내용이 Schema Evolution을 의미함으로스키마 진화에 대한 대응이라 인코딩과 스키마 진화 로 번역을 했으면 좋았을것 같습니다. 만물은 변한다. 그대로 있는 것은 아무것도 없다 - 에베소의 헤라클레이토스, 플라톤이 크라틸로스에서 인용 위 문구가 마음에 듭니다. 어플리케이션은 언제든지 변경될 수 있다는 생각을 모두 가지고 설계를진행해야 된다는게 중요합니다. 요구사항도 항상 변경될 수 있으니 어플리케이션도 변경이 되겠지요. 어플리케이션 작성시 하위 호환성 및 상위 호환성을 유지의 중요성에 대해 언급하고 있습니다. 하위호환성: 새로운 코드..

IT도서요약 2025.04.07

dfSummary vs skim

summarytools의 dfSummary와 skimpy의 skim은 데이터 탐색(EDA, Exploratory Data Analysis) 을 빠르게 수행할 수 있게 도와주는 Python 패키지입니다. dfSummary (from summarytools) dfSummary는 R의 summarytools::dfSummary() 함수에서 영감을 받은 Python 버전으로,Pandas DataFrame에 대해 변수별 요약 통계를 깔끔하게 보여주는 도구입니다. !pip install summarytools # colab에서 실행시 설치import pandas as pdimport seaborn as snsfrom summarytools import dfSummarydf = sns.load_dataset( 'ir..

데이터분석 2025.04.02

파이썬 파일 읽는 방법(csv,json,excel,parquet,avro)

파이썬에서 파일 읽는 방법 CSV 파일#Loading a CSVimport pandas as pd# Create URLurl = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/data.csv'df= pd.read_csv(url) Excel 파일#Loading an Excel File# Create URLurl = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/data.xlsx'# Load datadf = pd.read_excel(url, sheet_name=0, header=0)#첫 번째 시트를 불러옴 (0은 인덱스, 'Sheet1' 같은 이름도 사용 가능)#0번째(첫 번째) ..

데이터분석 2025.04.01

[ML]Wine Quality Classification

## 머신러닝 이진 분류모델 빅데이터 분석기사 등 분석 스터디 하시는 분들에게 도움이 되시기를 바랍니다.Colab을 통해 진행하실수 있게 별도로 준비 없이 진행하도록 코드를 준비했습니다. 와인 품질 데이터에 대해서는 아래 사이트의 데이터를 사용하였습니다.https://archive.ics.uci.edu/dataset/186/wine+quality UCI Machine Learning RepositoryThis dataset is licensed under a Creative Commons Attribution 4.0 International (CC BY 4.0) license. This allows for the sharing and adaptation of the datasets for any purp..

머신러닝 2025.04.01

파이썬 f-Strings 기능(포맷팅)

파이썬의 f-String의 일반적인 기능은 모든 분들이 다 알고 계실것 입니다. name = "홍길동"age = 30# 기존 방식print ( "{}의 나이는 {} 입니다.".format ( name, age )) # F-String 방식print ( f" {name}의 나이는 {age } 입니다." ) output: 홍길동의 나이는 31 입니다. 추가적으로 포맷팅의 기능이 있어 소개 드립니다. 천단위 "," 입력과 자릿수 패딩, 멀티라인 출력 기능입니다.##포맷팅 기능val1 = 1000000val2 = 11.12345len1 = 8 # 소수점이하 자릿수print(f"값1은: {val1:,}")print(f"값2는: {val2:.3f}")print(f"값2는: {val2:.{len1}f}")output..

파이썬 2025.04.01

데이터 중심 어플리케이션 - 3장

저장소와 검색 데이터베이스가 데이터를 저장하는 방법과 데이터를 요청했을 때 다시 찾을수 있는 방법에 대한 내용이 기술되어 있습니다.관계형 데이터베이스와 NoSQL 데이터베이스에 사용되는 저장소 엔진 설명과 로그구조 계열 저장소 엔진과 B트리 같은 페이지 지향 계열 저장소 엔진 검토합니다. NoSQL 데이터베이스(예: Cassandra, LevelDB, RocksDB 등)에서 핵심 개념 SSTable (Sorted String Table)정렬된 키-값 데이터 블록을 담고 있는 불변 파일입니다.일반적으로 압축, 인덱스, 블룸 필터 등과 함께 저장되어 효율적인 읽기를 지원합니다.쓰기 시에는 기존 SSTable을 변경하지 않고, 새로운 SSTable을 생성합니다.SSTable 구성 요소 예:데이터 블록 (key..

IT도서요약 2025.04.01

데이터 중심 어플리케이션- 2장

데이터 모델과 질의 언어 2장의 내용은 데이터 모델의 변천사와 데이터 모델을 문제에 적합하게 적용해야 효율적으로 적용할 수있다는 내용이 주요 내용입니다. 프로그램은 객체지향 프로그래밍 언어로 개발, 데이터는 관계형 테이블(테이블,Row,Column)에 저장함으로 전환 계층이 필요함 → 임피던스 불일치(impedance mismatch)  그래프형 데이터 모델속성 그래프-사이퍼 질의 언어, SQL의 그래프 질의트리플 스토어 모델-SPARQL시맨틱 웹: 웹사이트는 사람을 위해 텍스트와 이미지를 게시하듯, 컴퓨터를 위해 기계가 읽을 수 있는 데이터도 함께 게시하면 좋지 않겠느냐는 것입니다. 이를 위해 제안된 것이 RDF(Resource Description Framework)이며,다양한 웹사이트가 데이터를 일..

IT도서요약 2025.03.31

👍데이터 중심 어플리케이션- 1장

1.신뢰할 수 있고, 확장 가능하며, 유지보수가 쉬운 애플리케이션오늘날 많은 애플리케이션은 연산 중심이기보다 데이터 중심입니다.  순수한 CPU 성능이 제한 요소인 경우는 드물고 오히려 문제는 데이터의 양, 복잡성, 그리고 변화 속도입니다.  어플리케이션에 필요한  표준적인 구성요소 필 기능• 데이터를 저장하고 나중에 자신이나 다른 애플리케이션이 다시 찾을 수 있도록 하기 (데이터베이스) • 시간이 오래 걸리는 연산 결과를 기억하여 읽기 속도를 높이기 (캐시) • 키워드로 데이터를 검색하거나 다양한 방식으로 필터링할 수 있게 하기 (검색 인덱스) • 메시지를 다른 프로세스에 보내 비동기적으로 처리하기 (스트림 처리) • 많은 양의 누적 데이터를 주기적으로 처리하기 (배치 처리)이런 데이터 시스템들은 너무..

IT도서요약 2025.03.27

QR코드 생성 및 읽기

QR코드 생성  먼저 라이브러리 설치하기   pip install qrcode( 존재하면  skip) import qrcodeqrcode.make("이것은 QR코드입니다.").save("qrcode.png") # 생성후 파일로 저장  from PIL import Image # 이미지 열기 img = Image.open("qrcode.png") # 이미지 보기 img.show()  위코드에 대해서 colab에서는 Colab은 GUI 창이 없기 때문에 위 코드가 작동하지 않네요.        해결방법1.(PIL + IPython)from PIL import Imagefrom IPython.display import display# 이미지 열기img = Image.open("qrcode.png")# 이미지..

728x90
반응형