[IT 시각]
데이터 레이크는 대규모의 다양한 원시 데이터 세트를 기본 형식으로 저장합니다.
(원시 데이터는 특정 목적을 위해 처리되지 않은 데이터를 말합니다.)
(레이크라고 부르는 이유는 필터링되거나 패키지화되지 않은 수역과 같은 자연 상태의 데이터 풀을 저장하기 때문입니다.)
데이터는 여러 소스에서 레이크로 흐르며 원래 형식으로 저장됩니다.
데이터 레이크를 사용하면 모든 데이터가 보존됩니다.
데이터 레이크를 사용하면 정제되지 않은 데이터를 볼 수 있습니다.
데이터는 얼마 후 바로 분석에 사용될 수도 있고 전혀 사용되지 않을 수도 있습니다.
데이터 레이크에 있는 데이터는 쿼리되기 전까지는 정의되지 않습니다.
데이터 레이크에 있는 데이터는 분석을 위해 필요할 때 변환됩니다.
데이터 사이언티스트들은 보다 고도화된 분석 툴이나 예측 모델링을 사용하여 원시 데이터에 액세스할 수 있습니다.
[비지니스 시각]
> 무한한 데이터에서 가치를 창출한다.
모든 유형의 정형 데이터와 다양한 비정형 데이터를 저장할 수 있다.(IoT 데이터, 소셜 미디어 게시물 등)
> 미리 답을 예측할 필요가 없다.
원시 데이터를 저장하기만 하면 된다. 원시 데이터에 대한 이해와 인사이트가 향상될 때 데이터를 정제하면 된다.
> 인사이트를 얻을 수 있다.
데이터 인사이트를 얻을 수 있는 다양한 방식을 활용할 수 있다.
[데이터 레이크와 테이터 웨어하우스의 유사점, 차이점]
데이터 레이크와 데이터 웨어 하우스는 종종 혼동되지만, 이 둘은 동일하지 않으며 그 목적도 다릅니다.
>유사점
둘 다 빅데이터를 위한 데이터 저장소
>차이점
데이터 웨어하우스는 보고를 위해 설계된 구조화된 데이터 모델을 제공
데이터 레이크는 현재 정의된 목적이 없는 비정형 원시 데이터를 저장