728x90

데이터엔지니어 3

DeepSeek SmallPond

DeepSeek SmallPond란?데이터 엔지니어링 배치 및 스트리밍 프로세스는 Apache Spark가 주로 사용되었습니다.실제 엔지니어가 작업을 하다 보면 설치가 쉽고 가벼운 데이터 처리 프레임워크의 필요성이 있습니다.이에 적합한 솔루션이 DeepSeek SmallPond입니다.DeepSeek SmallPond는 DeepSeek AI에서 개발한 DuckDB와 3FS 위에 구축된 분산형 데이터 처리 프레임워크입니다. 특징 및 장점DuckDB 기반: DuckDB는 고성능의 인메모리 OLAP SQL 엔진으로, 이를 활용하여 빠른 데이터 처리 수행3FS 통합: 3FS는 고성능 분산 파일 시스템으로, SSD 및 RDMA 네트워크에 최적화되어 있어 대규모 데이터셋을 효율적으로 처리경량화된 구조: 복잡한 인프..

QR코드 생성 및 읽기

QR코드 생성  먼저 라이브러리 설치하기   pip install qrcode( 존재하면  skip) import qrcodeqrcode.make("이것은 QR코드입니다.").save("qrcode.png") # 생성후 파일로 저장  from PIL import Image # 이미지 열기 img = Image.open("qrcode.png") # 이미지 보기 img.show()  위코드에 대해서 colab에서는 Colab은 GUI 창이 없기 때문에 위 코드가 작동하지 않네요.        해결방법1.(PIL + IPython)from PIL import Imagefrom IPython.display import display# 이미지 열기img = Image.open("qrcode.png")# 이미지..

데이터 메시 가이드 원칙(Data Mesh Guiding Principles)

Monte Carlo 데이터 메시 가이드 원칙입니다.도메인 주도 데이터 소유권 (domain-driven data ownership)영혼(Soul) 데이터 소유권의 기본 원칙은 개별 비즈니스 도메인 팀이 자신의 데이터를 직접 소유해야 한다는 것입니다. 도메인 주도 데이터 소유권의 목적은 책임을 기술(데이터 웨어하우스, 데이터 레이크)이 아닌 비즈니스(마케팅, 재무 등) 와 정렬시키는 것입니다.데이터 제품으로서의 데이터 (data as a product)심장 (Heart) 데이터 제품은 비즈니스 문제를 해결하는 잘 정의된 자체 완결형 데이터 단위입니다. 데이터 제품은 단순한 것(테이블, 리포트)부터 복잡한 것(머신러닝 모델)까지 다양할 수 있습니다. 데이터 제품은 사람, 프로세스, 비즈니스 가치를 강조하며..

728x90