Bigdata - 데이터웨어 하우스 (DataWare House) 그리고 Data Lake
빅데이터를 이야기 하기전에는 Data-Mart (마트:DM) 와 Dataware house (하우스:DW) 라는 용어가 일반적인 데이터 활용체계 였습니다. 빅데이터 역시 다양한 데이터를 모아서 활용하는 측면에서 Data Lake 라는 용어를 사용합니다.
결국 데이터를 효과적으로 사용하는 환경과 기술을 통칭하여 우리는 "데이터 플랫폼" 이나 "데이터 인프라"라고 말하지만 모든 것의 내면은 데이터를 비즈니스에 잘 쓰고자 하는 것임에는 차이가 없습니다.
이런 관점에서 데이터 웨어 하우스를 정리해 보고자 합니다.
데이터 웨어하우스(data warehouse)란 사용자의 의사 결정에 도움을 주기 위하여, 기간계 시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 통합 관리하는 데이터베이스를 말합나다. 줄임말로 DW로 불립니다.
데이터 웨어하우스는 비즈니스 분석과 보고를 지원하기 위해 한 곳에서 이질적인 소스의 데이터를 집계하는 툴
데이터 웨어하우스는 기업의 경영정보를 분석하여 "의사결정"을 위한 자료를 실시간 제공하는 시스템을 위해 구축해 왔었습니다. 최근에는 빅데이터와 인공지능의 기술이 보급되면서 인공지능 분석을 통해 "데이터에 기반한 의사결정을 내리기 위한 예측이나 인사이트를 제공하는 고성능의 데이터 분석 기반을 기업들에게 제공" 하고 있습니다.
데이터 웨어 하우스는 데이터를 활용하기 위하여 수집하고 정제하는 통합된 데이터 저장소 역할을 합니다.
빅데이터 관점에서는 "데이터 레이크 : Data Lake" 라고 합니다.
주로 전통적인 데이터 관리 방법으로 데이터를 수집하고 정제하여 저장하여 활용하는 관점에서 데이터 웨어하우스를 설명하였다면
데이터 레이크는 정형.비정형의 다양한 데이터를 통합 수집하고 저장하여 분석을 통해 비즈니스에 활용하는 데이터 파이프 라인의 개념에서 데이터를 처리하는 모든 과정을 포함하여 설명 할 수 있습니다.
데이터 레이크와 데이터 웨어하우스
데이터웨어 하우스는 미리 정해진 업무에 적합하도록 처리된 데이터의 통합 저장소이며, 데이터를 특정 형식으로 체계화하여 비즈니스 사용자가 직접 시각화하고 접근하기 쉽게 관리하고자 할때 유용한 개념입니다.
반면 데이터 레이크는 구조화된 데이터와 더불어 이미지난 과거 로그 등 원시 형태의 데이터를 포함하여 관리합니다. 정형 및 비정형의 모든 조직 데이터를 저장함으로서 데이터웨어 하우스보다 시간이 지남에 따라 훨씬 더 다양하고 유연한 활용이 가능하다고 할 수 있습니다.
데이터 레이크는 다양한 기술로 통합된 아키텍처로 구성됩니다. 또한 처음부터 전체적인 아키텍처를 구성하기 보다 점진적인 데이터 증가나 다양화에 맞추어 소규모로 시작하여 필요에 따라 대규모 솔루션으로 확장하는 것이 효과적입니다.
결국 데이터 레이크와 데이터 웨어 하우스는 데이터를 수집하고 활용하는 과정에서 필요한 기능적인 역할에서 공통점을 가지고 있습니다.
데이터레이크가 대량의 데이터를 실시간 서비스와 연계하여 운영하기 위한 데이터 프로세싱 전반의 기술 관점이라면, 데이터 웨어 하우스는 데이터의 분석 활용과 원천 데이터 관리에 대한 개념으로 아래 그림이 적절한 예시로 설명됩니다.
[Data 관련 참고 정리]
1. Bigdata - 데이터웨어 하우스 (DataWare House) 그리고 Data Lake
2.데이터 메시 (Data mesh) 원칙과 전략
3. 클라우드 네이티브 와 Event-Stream-Processing 플랫폼
4. (기술 트렌드)데이터 처리 환경의 변화와 미래
5. (기술)빅데이터 분석을 위한 고성능 DB기술 SingleStore
'BigData' 카테고리의 다른 글
(꿀팁) Mysql에서 JSON 저장과 조회하기 (0) | 2021.01.03 |
---|---|
Graph DB 와 RDBMS 트랜드 3부- 그래프 데이터베이스의 종류와 활용 (0) | 2020.11.11 |
Graph DB 와 RDBMS 트랜드 2부- 그래프 데이터베이스의 개념 (0) | 2020.11.10 |
[SQLite] date형식 timestamp를 이용하여 날짜표현하기 (0) | 2020.08.05 |
Graph DB 와 RDBMS 트랜드 1부- DBMS의 역사와 이론들 (0) | 2020.03.21 |
zookeeper / firewalld 설치 (0) | 2020.03.08 |
(아나콘다 기초) Anaconda install (1) (0) | 2019.06.22 |