목록전체 글 (27)
study
데이터베이스는 데이터 유형에 따라 SQL과 NoSQL로 구분하며 SQL에는 대표적으로 MySQL, PostgreSQL이 있다 NoSQL에는 대표적으로 redis, mongoDB과 있다 병렬 처리 오픈소스 소프트웨어인 하둡에 대해서 소개하겠습니다 하둡은 2가지 특징을 가지고 있으며 첫 째 HDFS인 분산 파일 시스템입니다 파일이 여러 다른 컴퓨터에 있는 것을 말합니다 두 번째는 Map Reduce입니다 작업을 하위 작업으로 나누고 여러 장치에 데이터를 분배합니다 Map Reduce는 초기의 병렬 처리에서 많이 사용된 것으로 현재는 HIVE를 가장 많이 사용하고 있습니다 병렬 계산 프레임워크인 Spark를 소개하겠습니다 MapReduce보다 100배 더 빠른 작업 속도를 가졌습니다 Spark를 Python ..
데이터 엔지니어는 데이터 파이프라인을 구축하며, 데이터 파이프라인을 구축하는데 가장 많이 사용하는 프레임워크는 ETL(Extract, Transform, Load)이다 1. Extract(추출) : Row data(원본 데이터) 추출 2. Transform(변형) : 추출된 데이터 변형 3. Load(적재) : 데이터웨어하우스에 데이터 적재 Data lake는 원본 데이터로 구조화되어 있으며, 전처리 작업이 진행되지 않기 때문에 저장하는데 비용 효율적이다 반면 Data warehouse는 전처리 작업이 진행되기 때문에 상대적으로 크기는 작지만 분석에 최적화되어 있다 Scheduling에는 크게 Batche와 stream로 구분된다 Batche : 데이터가 일정 크기가 쌓이면 업데이트 하는 방식 Strea..
11주차 강의에서는 segmentation과 object Detection에 대해 알아보겠습니다 Semantic Segmentation이란 픽셀을 분류하는 것이며 Semantic의 의미는 암소 2마리의 경우 각각의 암소를 구분하지 않고 암소 전체를 하나의 pixel로 간주하는 것이다. Semantic Segmentation은 Sliding Window 방식을 통해서 픽셀을 분류할 수 있다 이미지를 Window 크기로 자른 후 각각의 이미지를 CNN에 넣어 pixel을 분류한다 Sliding Window란 이미지를 분할하여 자르는 것을 말한다 하지만 Sliding Window는 두 가지 단점이 있다 앞에서 Sliding Window 방식에 대해 알아보았다면 이번에는 Fully Convolutional에 대..