IT도서요약

Fundamentals of Data Engineering(1장)

DEDS 2026. 4. 30. 17:17
728x90

데이터를 "쓸 수 있게" 만드는 모든 과정, 데이터 엔지니어링의 본질

Fundamentals of Data Engineering 1장을 기반으로, 데이터 엔지니어링이 왜 현대 데이터 시대의 핵심 인프라인지 그리고 데이터 엔지니어가 실제로 어떤 역할을 하는지 정리합니다.

 

왜 지금 데이터 엔지니어링인가?

최근 10년간 가장 빠르게 성장한 IT 직군을 꼽는다면 단연 데이터 엔지니어다. 데이터 분석, 머신러닝, BI 대시보드, 추천 시스템... 화려한 데이터 활용 사례들이 넘쳐나지만, 그 모든 것의 아래에는 반드시 데이터 엔지니어링이라는 든든한 기반 인프라가 있다.

데이터 과학자가 훌륭한 모델을 만들더라도, 분석가가 날카로운 인사이트를 도출하더라도 — 정작 데이터가 제대로 수집되고 가공되어 있지 않다면 아무런 의미가 없다. 데이터 엔지니어링 없이는 데이터 활용 자체가 불가능하다.

"데이터 엔지니어링은 데이터가 흐르게 만들고, 데이터를 쓸 수 있게 만드는 역할이다."


데이터 엔지니어링 수명 주기 — 이 책의 핵심 프레임

이 책이 제안하는 핵심 개념은 데이터 엔지니어링 수명 주기(Data Engineering Lifecycle) 다. 특정 도구나 기술을 먼저 배우는 대신, 데이터가 생성되어 소비되기까지의 전체 흐름을 먼저 이해해야 한다는 것이다.

단계이름설명
01 데이터 생성 (Source) 원시 데이터가 만들어지는 단계
02 데이터 저장 (Storage) 데이터를 안전하게 보관하는 단계
03 데이터 수집 (Ingestion) 데이터를 파이프라인으로 끌어오는 단계
04 데이터 변환 (Transformation) 분석에 맞게 가공하는 단계
05 데이터 제공 (Serving) 최종 사용자에게 전달하는 단계

이 5단계 흐름은 어떤 기술 스택을 쓰든, 어떤 클라우드를 선택하든 변하지 않는 구조적 뼈대다. 기술은 해마다 바뀌지만, 데이터가 흐르는 이 구조만큼은 일관되게 유지된다.


수명 주기를 관통하는 6가지 기반 역량

단계별 작업보다 더 중요한 것이 있다. 모든 단계에 공통적으로 적용되는 "언더커런트(Undercurrents)" — 수면 아래에서 전체를 움직이는 기반 역량이다.

역량설명
🔒 보안 데이터 접근 제어, 암호화, 컴플라이언스
📋 데이터 관리 품질, 카탈로그, 거버넌스 정책
🔄 DataOps 운영 자동화, 모니터링, 신뢰성 확보
🏛️ 데이터 아키텍처 시스템 구조 설계, 확장성 고려
🎼 오케스트레이션 파이프라인 스케줄링 및 의존성 관리
💻 소프트웨어 엔지니어링 코드 품질, 테스트, 버전 관리

이 6가지 역량은 파이프라인을 짤 때도, 스토리지를 설계할 때도, 데이터를 제공할 때도 항상 함께 고려해야 한다. 특정 단계의 기술보다, 이 기반 역량들을 얼마나 탄탄히 갖추고 있느냐가 데이터 엔지니어의 실력을 결정한다.


데이터 엔지니어는 어떤 사람인가?

많은 사람들이 데이터 엔지니어를 "파이프라인 만드는 개발자" 정도로 이해한다. 틀린 말은 아니지만, 훨씬 더 넓은 시각이 필요하다.

  • 파이프라인 구축: 데이터가 이동하는 경로를 설계하고 구현한다
  • 데이터 품질 관리: 들어오는 데이터가 정확하고 완전한지 보장한다
  • 시스템 안정성 확보: 파이프라인이 중단 없이 안정적으로 운영되게 한다
  • 분석/ML 환경 제공: 분석가와 과학자가 즉시 활용할 수 있는 데이터를 공급한다

데이터 엔지니어의 본질적 역할은 다른 팀이 데이터로 가치를 만들 수 있도록 "환경을 만드는 것"이다.


데이터 엔지니어링은 어떻게 진화했나?

데이터 엔지니어링은 갑자기 등장한 분야가 아니다. 수십 년에 걸친 기술 변화의 산물이다.

1980 — 2000: 데이터 웨어하우스 시대

Oracle, Teradata 등 온프레미스 DW 구축. ETL 중심의 배치 처리. 소수 전문가가 고가의 시스템을 운영했다.

2000 — 2015: 빅데이터 시대

Hadoop, MapReduce, Spark 등장. 페타바이트 규모 데이터 처리가 가능해졌고, 복잡한 인프라 관리가 필요해졌다. "데이터 엔지니어"라는 직함이 본격화됐다.

2015 — 현재: 클라우드 & 데이터 플랫폼 시대

AWS, GCP, Azure 기반 관리형 서비스 확산. Snowflake, dbt, Airflow 등 도구가 성숙했다. 인프라보다 데이터 가치 창출에 집중하는 시대로 전환됐다.


지금 무엇이 바뀌고 있나?

과거 패러다임현재 패러다임
복잡한 인프라 직접 관리 관리형 서비스로 단순화
배치(Batch) 중심 처리 실시간(Streaming) 처리 확대
인프라 엔지니어에 가까운 역할 데이터 가치 창출 중심 역할
폐쇄적 온프레미스 환경 클라우드 기반 유연한 확장

주요 클라우드 플랫폼

플랫폼대표 서비스
AWS S3, Redshift, Glue, Kinesis
GCP BigQuery, Dataflow, Pub/Sub
Azure Synapse, Data Factory, Event Hub

클라우드의 등장으로 데이터 엔지니어가 서버를 직접 세팅하고 관리하는 시대는 빠르게 저물고 있다. 이제 엔지니어는 "어떻게 인프라를 구성할까"보다 "이 데이터로 어떤 가치를 만들까"에 더 많은 시간을 쓸 수 있게 됐다.


이 책이 강조하는 것: 기술보다 원칙

Fundamentals of Data Engineering은 특정 도구나 프레임워크 사용법을 가르치는 책이 아니다. 오히려 기술 중립적인 관점에서 데이터 엔지니어링의 근본 원리를 다룬다.

  • 특정 도구보다 아키텍처 원칙을 이해하라
  • 트렌드보다 수명 주기 전체를 파악하라
  • 기술 선택에 앞서 문제의 본질을 먼저 정의하라
  • 도구는 바뀌지만 데이터 흐름 구조는 바뀌지 않는다

이 책을 통해 얻을 수 있는 것은 단순한 기술 지식이 아니다. 어떤 도구가 등장하더라도 올바른 판단을 내릴 수 있는 사고 프레임워크다.


💡 한 줄 정리

"데이터 엔지니어링은 데이터를 쓸 수 있게 만드는 모든 과정이다."

— Fundamentals of Data Engineering, 1장의 핵심 메시지

728x90