BigData

데이터 메시 (Data mesh) 원칙과 전략 정리

IT오이시이 2022. 4. 30. 15:00
728x90

데이터 메시 (Data Mesh)

데이터 메시 (Data mesh) 원칙과 전략 정리

1. 데이터 메시의 배경

- 데이터 기반의 서비스 활용이 증대되면서 데이터 메시에 대한 필요성이 요구 되고 있습니다.
데이터 메시는 전통적인 데이터 관리 방법에서 기업에 필요한 모든 데이터를 통합하여 모아둔 데이터 웨어하우스( Data Wharehouse)나 기업에서 생산되고 활용되는 모든 데이터 원천을 한 곳에 모아둔 데이터레이크 (Data Lake)와 같이 통합된 데이터 관리 환경에서 조직의 사일로로 인한 데이터 접근과 활용의 문제를 해결하는 방법으로 데이터 메시의 개념을 접근 할 수 있습니다.


1.2 [데이터 웨어하우스와 데이터 마트]


데이터 웨어 하우스는 다양하고 방대한 데이터를 통합 관리하는 측면에서 의미가 있지만 활용을 위해서는 빈번한 접근과 데이터 가공이 발생하게 됩니다.
그리고 관리의 주체의 통제에 따라 데이터 접근과 방대한 데이터를 활용하는데 제약이 발생 합니다.

이런 측면에서 필요할때마다 데이터를 가져 오거나 빈번한 재가공 과정은 높은 비용이 발생합니다. 이런 문제는 데이터를 1차적인 재가공을 해서 용도별로 모아두는 데이터 마트 (Data Mart)를 구축하여 문제를 해결해 왔습니다.

데이터 마트는 자주 사용하거나 또는 꼭 필요한 데이터를 업무에 맞게 미리 갖추고 데이터 접근과 활용성을 높이는 방법으로 효과적인 방안 입니다.

최근 빅데이터 환경에서도 마찬가지 방대한 데이터를 수집하고 관리하는 데이터 아키텍처 또는 빅데이터 조직과 데이터 분석을 위주로하는 데이터 사이언스 조직간에도 이러한 데이터 이용에 제약이 있습니다.

1.2 [빅데이터 레이크와 데이터 메시]


빅데이터는 다양한 데이터를 한 곳에 모아 방대한 데이터를 한꺼번에 분석하고 활용하기 위해 도입된 데이터 아키텍처 입니다.

이러한 빅데이터의 데이터 레이크(Data Lake)는 방대한 자료를 담아 두기는 용이하지만 다양한 데이터를 쉽게 접근하고 사용하기에는 불편한 아키텍처 입니다.

여러 데이터 사이언스들이 쉽게 데이터를 이용하여 분석하기 위해서는 각 데이터 모델에 맞는 데이터를 시시 각각이 만들어 주거나 옮겨 주어야하는 과정이 필요한데 이러한 일을 데이터 엔지니어 조직에서 업무적인 부담을 가지게 됩니다.
여기에서도 데이터 마트와 마찬가지로 데이터를 미리 가공하거나 분석에 맞는 데이터 셋을 저장해 둠으로써, 분석가나 데이터 사용 조직에서 데이터의 접근성과 데이터 분석 시간을 단축 할 수 있습니다.

이와 같이 데이터 메시(Data Mesh)의 개념은 데이터 운영과 이용 조직 관점에서 데이터 접근성과 활용성을 높일수 있는 접근법이라 할 수 있습니다.


1.3 [데이터 분석가와 도메인 기반 아키텍처]


흔히 데이터 메시를 도메인 기반의 데이터 활용 조직 또는 MSA 기반의 데이터 아키텍처로 정리를 합니다.

실제 데이터 분석을 위해서는 데이터 분석 모형별 다양한 임시 데이터 처리 공간이 필요하고 또 실시간 변화되는 데이터를 추가해서 분석 모델을 재학습하는 과정들이 지속적으로 동반됩니다.

이러한 환경을 위해서는 분석 모델별 별도의 분석 환경과 분석 데이터가 개별로 관리되고 운영 되어야 합니다.

주로 Docker나 Kubernetis와 같은 가상의 공간을 활용하여 분석에 필요한 자원을 할당하고 지속적인 학습과정들이 데이터 분석가 (Data Scientist)를 통해 이루어 집니다.

이때 Data 분석가 또는 분석 조직은 분석 모형 마다 별도로 개별 업무 단위별 자유로운 분석을 할수 있는 데이터 처리 구조를 요구합니다.  이러한 아키텍처를 도메인 기반의 데이터 아키텍처라고 합니다.



1.4 [데이터 파이프라인, 데이터 Mesh그리고 데이터 서비스]


데이터 분석의 목적은 고객에게 다양한 서비스를 제공하는 것으로 실시간 변화하는 데이터를 분석하여 데이터 서비스로 연결하는 과정까지 이어서 고려를 해야합니다. 이런 환경을 Data Mesh라가 필요 할 수 있습니다.

데이터 분석 서비스가 이어지기 위해서는 실시간의 변화된 데이터를 끌어와서 분석 모형을 재학습하고, 실시간의 서비스로 연결하는 데이터 파이프라인을 이용하는 전체 데이터 처리 과정에서 데이터 플랫폼의 개념을 찾을 수 있습니다.

2. 데이터 메시는 ?


데이터 메시는 마이크로 서비스 아키텍처와 마찬가지로 기존의 데이터 레이크에서 수집, 저장, 변환, 분석,추론을 하는 모놀리식 방법과 다르게, 데이터 파이프라인을 활용하여 여러 도메인의 데이터를 쉽게 찾고 데이터 활용을 위한 접근 절차로 쉽게 정의하게 합니다.
즉 데이터 관리와 운영의 탈 중앙화를 통해 필요한 데이터를 쉽게 사용하기 위한 MSA 기반의 데이터 아키텍처라 할 수 있습니다.

2.1 [데이터 메시의 필요성]


데이터를 사용하여 비즈니스와 생활의 모든 측면을 강화하고 개선하려는 우리의 열망은 대규모 데이터 관리 방식의 패러다임 전환을 요구합니다. 지난 10년 동안의 기술 발전은 데이터 볼륨의 규모와 데이터 처리 컴퓨팅을 해결했지만 데이터 환경의 변화에 대한 응답 속도, 데이터 소스의 확산, 데이터 사용 사례 및 사용자의 다양성과 같은 다른 차원의 규모를 해결하는 데 실패했습니다.
데이터 메시는 도메인 지향 분산형 데이터 소유권 및 아키텍처, 제품으로서의 데이터, 플랫폼으로서의 셀프 데이터 서비스 인프라, 연합 컴퓨팅 거버넌스등의 4가지 원칙에 기반하여 기술 아키텍처와 조직 구조에 대한 새로운 논리적 관점을 제시합니다

2.2 [데이터 메시의 4 원칙]


데이터 메시는 데이터의 특성과 토폴로지, 다양한 사용 사례, 데이터 소비자의 개별 페르소나, 궁극적으로 다양한 액세스 패턴이라는 차이점을 인식하고 존중합니다. 그러나 기술 스택이 아닌 도메인 기반의 역 모델 및 토폴로지와 같은 다른 구조에서 접근할 필요가 있습니다..

데이터 소비자 모두의  소스로  확장하여, 다양하게 변환을 요구하는 용도별 처리와 속도 변화에 대한 대응하는 등의 목표를 달성하기 위해 4가지 기본 원칙이 있다고 합니다.
모든 데이터 메시 구현은 데이터를 사용 가능하게 만드는 데 필요한 품질 및 무결성 보장을 제공하면서 규모의 약속을 달성하기 위해 구현합니다.

1) 도메인 지향 분산 데이터 소유권 및 아키텍처 (Domain Ownership)
- 데이터 생성과 사용자 수의 증가, 데이터 접근 정책의 다양성과 데이터의 확장에 대응

2) 제품으로서의 데이터 (Data as a product)
-데이터 사용자가 데이터를 쉽게 검색이 가능하고 품질이 보장된 데이터를 사용하며 데이터에 대한 이해도와 생산성이 높아짐

3) 셀프 서비스 데이터 인프라 플랫폼 (Self-serve data platform)
- 각 도메인 팀이 자율적으로 제품을 만들고 사용할 수 있도록 하며 data product를 쉽게 구축, 실행 및 운영

4) 연합 컴퓨팅 거버넌스 (Federated computational governance)
- 데이터 사용자가 상호 운용을 위한 표준을 따르는 생태계로 운영

 

* 데이터 메시를 위한 데이터 파이프라인

* 데이터 메시를 위한 클라우 플랫폼

 


[Data 관련 참고 정리]

1. Bigdata - 데이터웨어 하우스 (DataWare House) 그리고 Data Lake

2.데이터 메시 (Data mesh) 원칙과 전략

3. 클라우드 네이티브 와 Event-Stream-Processing 플랫폼

4. (기술 트렌드)데이터 처리 환경의 변화와 미래

5. (기술)빅데이터 분석을 위한 고성능 DB기술 SingleStore

 

728x90
반응형