[빅데이터/MQ] 아파치 카프카를 데이터 레이크로 사용할 수 있을까?
데이터 레이크란? 데이터 레이크의 기본 개념은 기업단위의 서비스 데이터들을 한곳의 저장공간에 모아 두는 것입니다. 이렇게 저장된 데이터로부터 BI(Business Intelligence) App으로 조회하거나 시각화, 머신러닝을 수행하였습니다. 데이터 웨어하우스와는 다르게 '일단 저장'하고 나서 이후에 스키마를 적용하는 'Schema-on-Read'에 초점을 잡고 있습니다. 데이터 레이크라는 단어가 나온 이래도 지속 발전을 거듭했고 데이터 레이크 기술은 다음과 같이 발전 하였습니다. - 1세대 데이터 레이크: HDFS, 맵리듀스, 피그, 하이브, 임ㅍㄹ라, 플룸, 스쿱 - 2세대 데이터 레이크: 클라우드 네이티브로 성장하였고 오븢게트 스토리지(S3), 스파크, 플링크, 프레스토, 스트림셋 스트리밍 데이터..