study
Data Engineering for Everyone 본문
데이터 엔지니어는 데이터 파이프라인을 구축하며, 데이터 파이프라인을 구축하는데 가장 많이 사용하는 프레임워크는
ETL(Extract, Transform, Load)이다
1. Extract(추출) : Row data(원본 데이터) 추출
2. Transform(변형) : 추출된 데이터 변형
3. Load(적재) : 데이터웨어하우스에 데이터 적재
Data lake는 원본 데이터로 구조화되어 있으며, 전처리 작업이 진행되지 않기 때문에 저장하는데 비용 효율적이다
반면 Data warehouse는 전처리 작업이 진행되기 때문에 상대적으로 크기는 작지만 분석에 최적화되어 있다
Scheduling에는 크게 Batche와 stream로 구분된다
- Batche : 데이터가 일정 크기가 쌓이면 업데이트 하는 방식
- Stream : 실시간으로 업데이트 하는 방식(회원가입의 경우 실시간으로 반영됨)
- Scheduling 도구로 Apache의 Airflow를 사용
데이터 병렬 처리(Parallel computin)는 작업 처리 시간을 단축할 수 있지만 데이터는 옮기는 과정에서 비용(시간)이 발생
Clound Service로는 크게 3가지로 AWS, MS(Azure), Google(GCP) 등이 있다
장점
- 공간 최소화(서버 운영관리 최소화)
- 비용 최소화(필요한만큼 사용한 후 이용료 지불)
- 보완성
참고) multicloud를 통해 한 회사의 의존성을 줄일 수 있지만, 일부 서비스의 경우 호환이 안된다는 단점도 존재함
1강 Data Engineering for Everyone에서는 기본적인 용어와 관련해서 다뤄 크게 어려움 부분이 없었다고 생각합니다
다음 포스팅은 3강 Introduction to Data Engineering으로 조금 더 깊은 내용을 다뤄보도록 하겠습니다
'Data Engineer with Python' 카테고리의 다른 글
Test-Drive-Development (0) | 2022.04.17 |
---|---|
데코레이터 (0) | 2022.03.13 |
효율적으로 파이썬 코드 작성하는법 (0) | 2022.03.06 |
과제 1. 가상화폐 데이터로 해보고 싶은 것 (0) | 2022.02.28 |
Introduction to Data Engineering (0) | 2022.02.27 |