Notice
Recent Posts
Recent Comments
Link
«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

study

Data Engineering for Everyone 본문

Data Engineer with Python

Data Engineering for Everyone

채승완 2022. 2. 22. 15:12

데이터 엔지니어는 데이터 파이프라인을 구축하며, 데이터 파이프라인을 구축하는데 가장 많이 사용하는 프레임워크는

ETL(Extract, Transform, Load)이다

 

1. Extract(추출) : Row data(원본 데이터) 추출

2. Transform(변형) : 추출된 데이터 변형

3. Load(적재) : 데이터웨어하우스에 데이터 적재

Data lake는 원본 데이터로 구조화되어 있으며, 전처리 작업이 진행되지 않기 때문에 저장하는데 비용 효율적이다

반면 Data warehouse는 전처리 작업이 진행되기 때문에 상대적으로 크기는 작지만 분석에 최적화되어 있다

 

Scheduling에는 크게 Batchestream로 구분된다

 

  • Batche : 데이터가 일정 크기가 쌓이면 업데이트 하는 방식
  • Stream : 실시간으로 업데이트 하는 방식(회원가입의 경우 실시간으로 반영됨)
  • Scheduling 도구로 Apache의 Airflow를 사용

데이터 병렬 처리(Parallel computin)는 작업 처리 시간을 단축할 수 있지만 데이터는 옮기는 과정에서 비용(시간)이 발생

 

Clound Service로는 크게 3가지로 AWS, MS(Azure), Google(GCP) 등이 있다

장점

  • 공간 최소화(서버 운영관리 최소화)
  • 비용 최소화(필요한만큼 사용한 후 이용료 지불)
  • 보완성

참고) multicloud를 통해 한 회사의 의존성을 줄일 수 있지만, 일부 서비스의 경우 호환이 안된다는 단점도 존재함

 

1강 Data Engineering for Everyone에서는 기본적인 용어와 관련해서 다뤄 크게 어려움 부분이 없었다고 생각합니다

 다음 포스팅은 3강 Introduction to Data Engineering으로 조금 더 깊은 내용을 다뤄보도록 하겠습니다