Data Engineering for Everyone

Notice

Recent Posts

Tags more

Archives

관리 메뉴

study

Data Engineer with Python

채승완 2022. 2. 22. 15:12

데이터 엔지니어는 데이터 파이프라인을 구축하며, 데이터 파이프라인을 구축하는데 가장 많이 사용하는 프레임워크는

ETL(Extract, Transform, Load)이다

1. Extract(추출) : Row data(원본 데이터) 추출

2. Transform(변형) : 추출된 데이터 변형

3. Load(적재) : 데이터웨어하우스에 데이터 적재

Data lake는 원본 데이터로 구조화되어 있으며, 전처리 작업이 진행되지 않기 때문에 저장하는데 비용 효율적이다

반면 Data warehouse는 전처리 작업이 진행되기 때문에 상대적으로 크기는 작지만 분석에 최적화되어 있다

Scheduling에는 크게 Batche와 stream로 구분된다

데이터 병렬 처리(Parallel computin)는 작업 처리 시간을 단축할 수 있지만 데이터는 옮기는 과정에서 비용(시간)이 발생

Clound Service로는 크게 3가지로 AWS, MS(Azure), Google(GCP) 등이 있다

장점

참고) multicloud를 통해 한 회사의 의존성을 줄일 수 있지만, 일부 서비스의 경우 호환이 안된다는 단점도 존재함

1강 Data Engineering for Everyone에서는 기본적인 용어와 관련해서 다뤄 크게 어려움 부분이 없었다고 생각합니다

다음 포스팅은 3강 Introduction to Data Engineering으로 조금 더 깊은 내용을 다뤄보도록 하겠습니다

Test-Drive-Development (0)	2022.04.17
데코레이터 (0)	2022.03.13
효율적으로 파이썬 코드 작성하는법 (0)	2022.03.06
과제 1. 가상화폐 데이터로 해보고 싶은 것 (0)	2022.02.28
Introduction to Data Engineering (0)	2022.02.27

'Data Engineer with Python' Related Articles