BigData

Large DB (데이터베이스)의 Hash Join

IT오이시이 2025. 11. 16. 17:24

728x90

[BigData의 Join 기초]
- DBMS Join
- Large DB (데이터베이스)의 Hash Join
- Large DB (데이터베이스)의 Nested Loop Join
- Large DB (데이터베이스)의 Sort-Merge Join

Large DB (데이터베이스)의 Hash Join

Large DBMS에서 Hash Join은 대용량 테이블 조인 성능을 최적화하는 알고리즘으로, 작은 테이블을 메모리에 해시 테이블로 적재하고, 큰 테이블을 탐색하며 매칭되는 값을 찾는 방식입니다. 등식 조건(=) 기반 조인에서 효과적이며, 높은 CPU와 메모리 자원을 사용하는 대신, 랜덤 액세스와 정렬 부담을 줄여 대용량 데이터에 적합합니다.

조인 알고리즘의 기본 문제는 조인 속성의 각 고유 값에 대해, 각 릴레이션에서 해당 값을 나타내는 튜플 집합을 찾는 것입니다 . 정렬-병합 알고리즘의 핵심 아이디어는 먼저 조인 속성을 기준으로 릴레이션을 정렬하여, 인터리브 선형 스캔에서 이러한 집합을 동시에 발견하도록 하는 것입니다.

병렬 해시 조인은 대용량 빅데이터 환경과 분산 DBMS에서 널리 사용되며, 최신 DBMS 및 빅데이터 처리 프레임워크에서 기본적인 조인 전략으로 채택됩니다.

Hash Join 개념과 특징

작은 테이블(작은 쪽)을 메모리에 해시 테이블로 적재(Build Phase).
큰 테이블(Probe Phase)을 해시 함수로 탐색하여 조인 대상 찾기.
조인 조건이 등식 연산자일 때 가장 효율적.
인덱스가 없어도 사용 가능, 랜덤 액세스와 정렬 비용을 줄임.
메모리 제한 시 해시 영역 초과분은 디스크로 스필(overflow)되어 성능 저하 가능.
병렬 처리 시 대용량 데이터에 강점.
비용 기반 옵티마이저에서 작은 테이블, 큰 테이블 분리 후 자동 선택.

작동 원리

작은 테이블 모든 행에 대해 해시 함수를 적용, 해시 버킷에 저장.
큰 테이블의 각 행에 대해 동일한 해시 함수를 적용하여 해시 테이블에서 일치하는 버킷 검색.
버킷 내 체인 또는 리스트에서 조인 조건 일치 여부 확인.
결과 생성.

종류 및 특징

종류	설명	특징 및 장점	단점 및 유의점
Grace Hash Join	대용량 데이터 분할 후 분할 단위별로 해시 조인 수행	메모리 분할 처리로 대용량 처리 가능	파티셔닝 과정과 디스크 I/O 비용 발생 가능
Hybrid Hash Join	Grace Hash Join + 메모리 내부에서 일부 처리	메모리 사용 극대화로 성능 향상	메모리 크기 제한 시 성능 저하 가능
In-Memory Hash Join	작은 테이블을 완전히 메모리에 적재하여 처리	빠른 처리, I/O 감소	메모리 크기 제한이 큰 제약

대용량 테이블에서 병렬 해시 조인(Parallel Hash Join)은 대규모 데이터를 효율적으로 처리하기 위해 여러 프로세서나 노드가 동시에 조인 작업을 수행하는 방식입니다. 이 방식은 데이터 분할과 병렬 처리를 통해 해시 조인의 성능을 극대화합니다.

병렬 해시 조인의 구현 방식

데이터 파티셔닝 (Partitioning)
- 입력 테이블을 해시 함수를 기반으로 여러 파티션으로 나눕니다.
- 각 파티션은 독립적으로 병렬 작업이 가능합니다.
- 작은 테이블과 큰 테이블 모두 동일한 해시 함수를 사용해 분할하여, 같은 키는 동일 파티션에 위치하도록 합니다.
파티션 별 해시 테이블 구축 (Build Phase in Parallel)
- 작은 테이블의 각 파티션을 각 병렬 작업자(worker)가 독립적으로 메모리에 해시 테이블로 구축합니다.
- 메모리에 적재가 불가능한 경우, 일부 파티션은 디스크에 스필될 수 있지만, 병렬로 처리하여 비용 분산.
파티션 별 프로빙 (Probe Phase in Parallel)
- 큰 테이블의 각 파티션 역시 병렬 작업자가 탐색합니다.
- 해시 테이블에서 해당 키를 빠르게 조회하여 조인 조건에 맞는 행을 결과에 추가합니다.
결과 병합 및 반환
- 각 병렬 작업자가 처리한 조인 결과를 병합하여 최종 결과를 생성합니다.
- 병렬 작업의 결과 집합 조합, 정렬 등 후처리는 필요에 따라 수행.