InfraPlatform

VMware 가용성 HA와 FT

IT오이시이 2025. 10. 15. 08:08

728x90

VMware 가용성 HA와 FT

VMware는 가상 머신(VM)의 가용성을 높이기 위해 High Availability (HA)와 Fault Tolerance (FT)라는 두 가지 주요 기능을 제공합니다. 이들은 목표와 작동 방식에서 중요한 차이점을 가집니다.

1. VMware High Availability (HA)

🚀 개념

VMware HA는 ESXi 호스트(물리적 서버)의 장애 발생 시, 해당 호스트에서 실행 중이던 가상 머신들을 클러스터 내의 다른 정상 호스트에서 자동으로 재시작하여 서비스 중단 시간을 최소화하는 기능입니다.

✨ 특장점

자동 복구 (Failover): 호스트 장애 감지 후 VM을 다른 호스트에서 자동 재시작합니다.
비용 효율성: Fault Tolerance에 비해 하드웨어 및 라이선스 비용이 적게 듭니다.
광범위한 적용: 클러스터 레벨에서 작동하며, 대부분의 중요 업무 시스템에 적용 가능합니다.
데이터 무결성: 공유 스토리지(Shared Storage)를 사용하여 데이터 손실을 방지합니다.

⚠️ 단점

다운타임 발생: 호스트 장애 감지 및 다른 호스트에서 VM을 재시작하는 동안 짧은 서비스 중단 시간(Downtime)이 발생합니다 (수 초에서 수 분).
실행 중인 데이터 손실 가능성: 장애 발생 시 VM이 재시작되므로, 장애 직전에 메모리(RAM)에 있던 실행 중인 데이터나 트랜잭션이 일부 손실될 수 있습니다.

🛠️ 구성 방법 (개요)

클러스터 생성: 2개 이상의 ESXi 호스트를 포함하는 vSphere 클러스터를 생성합니다.
공유 스토리지 구성: 모든 ESXi 호스트가 동일한 공유 스토리지 (예: Fibre Channel SAN, iSCSI, NFS, vSAN)에 접근할 수 있도록 구성합니다. VM 파일이 여기에 저장됩니다.
VMware HA 활성화: vSphere Client에서 클러스터 설정을 열고 vSphere HA를 활성화합니다.
네트워크 구성: 호스트 간의 상태 감시를 위한 관리 네트워크(Management Network) 및 데이터스토어 하트비트(Datastore Heartbeat) 네트워크를 구성합니다.
승인 제어 (Admission Control) 설정: 장애 허용 한도(예: "몇 개의 호스트 장애를 허용할 것인가")를 설정하여 클러스터의 리소스 할당을 관리합니다.

2. VMware Fault Tolerance (FT)

🛡️ 개념

VMware FT는 제로 다운타임(Zero Downtime) 및 제로 데이터 손실(Zero Data Loss)을 목표로, 하나의 VM을 두 개의 다른 ESXi 호스트에서 동기화된 복제본(Primary VM 및 Secondary VM)으로 실시간 실행하는 기능입니다.

✨ 특장점

제로 다운타임 (Zero Downtime): Primary VM이 장애를 일으키면 Secondary VM이 즉시 작동을 인계하므로, 서비스 중단 없이 연속적인 가용성을 제공합니다.
제로 데이터 손실 (Zero Data Loss): Primary VM의 모든 CPU 및 메모리 상태 변화가 Secondary VM에 실시간으로 복제되므로, 장애 발생 시 어떤 데이터나 트랜잭션도 손실되지 않습니다.
투명한 페일오버: 사용자나 애플리케이션에 장애가 발생했음을 알리지 않고 페일오버가 완료됩니다.

⚠️ 단점

높은 리소스 요구사항: Primary VM과 Secondary VM이 항상 동시 실행되므로 CPU, 메모리, 네트워크 등의 리소스 소모가 2배가 됩니다.
성능 영향: 실시간 복제를 위한 오버헤드로 인해 VM 성능에 약간의 영향이 있을 수 있습니다.
VM 제한: 지원하는 가상 CPU(vCPU) 개수에 제한이 있으며 (현재 버전에서는 최대 8vCPU), 라이선스 레벨에 따라 다릅니다. 미션 크리티컬한 워크로드에 제한적으로 사용됩니다.
전용 네트워크: 복제 트래픽을 위한 전용 FT 로깅 네트워크가 필요하며, 고대역폭 네트워크(예: 10Gbps 이상)가 권장됩니다.

🛠️ 구성 방법 (개요)

HA 클러스터 구성: Fault Tolerance는 HA 클러스터 내에서 작동하므로, HA가 먼저 활성화되어 있어야 합니다.
전용 네트워크 설정: VMkernel 포트 그룹을 생성하고 Fault Tolerance 로깅 트래픽을 활성화합니다. 높은 처리량을 위해 최소 2개의 물리적 NIC를 전용으로 할당하는 것이 좋습니다.
FT 활성화:
- vSphere Client에서 보호할 가상 머신을 마우스 오른쪽 버튼으로 클릭합니다.
- Fault Tolerance를 선택하고 켜기(Turn On Fault Tolerance)를 클릭합니다.
- 시스템이 Secondary VM을 생성하고 다른 호스트에 배치하여 실시간 동기화를 시작합니다.

💡 3. HA와 FT 비교 요약

구분	VMware HA (High Availability)	VMware FT (Fault Tolerance)
목표	호스트 장애 발생 시 최소한의 다운타임으로 복구 (자동 재시작)	호스트 장애 발생 시 제로 다운타임 및 제로 데이터 손실 (실시간 복제 및 인계)
작동 방식	호스트 장애 감지 후 클러스터 내 다른 호스트에서 VM 재시작	두 호스트에서 Primary/Secondary VM을 실시간 동기화하여 동시 실행
다운타임	짧은 중단 시간 발생 (재시작 시간 소요)	제로 다운타임 (즉시 인계)
데이터 손실	장애 직전 메모리 데이터는 일부 손실 가능	제로 데이터 손실
적합한 워크로드	일반적인 업무 및 중요 시스템 (대부분의 VM)	미션 크리티컬한 애플리케이션 (절대 중단이 허용되지 않는 VM)
리소스 오버헤드	상대적으로 낮음 (장애 시에만 부하 발생)	Primary/Secondary VM 동시 실행으로 높음 (2배)

4. VMware HA (High Availability) 상세 구성 및 작동

4.1. 작동 구성 요소

FDM (Fault Domain Manager): 각 ESXi 호스트에 설치되는 에이전트로, 클러스터 내에서 마스터(Master) 호스트와 슬레이브(Slave) 호스트로 역할을 나눕니다. 마스터는 클러스터 상태와 장애 발생 시 복구를 조정합니다.
하트비트 (Heartbeat): ESXi 호스트 간에 네트워크를 통해 서로의 상태를 주기적으로 확인합니다.
데이터스토어 하트비트 (Datastore Heartbeat): 관리 네트워크 장애 시, 공유 데이터스토어를 이용하여 호스트의 생존 여부를 확인하는 보조 메커니즘입니다.

4.2. 복구 절차

호스트 장애 감지: 마스터 호스트가 네트워크 하트비트 및 데이터스토어 하트비트를 통해 슬레이브 호스트의 장애를 감지합니다.
페일오버 시작: 마스터 호스트는 장애가 발생한 호스트에 있던 VM들을 식별합니다.
VM 재시작: 식별된 VM들을 클러스터 내의 정상적인 다른 호스트에 할당하고, 공유 스토리지의 VM 파일들을 사용하여 VM을 자동으로 Power On (재시작) 합니다.

5. VMware FT (Fault Tolerance) 상세 기술 및 요구사항

5.1. vLockstep 기술

FT의 핵심은 vLockstep 기술입니다.

Primary VM에서 발생하는 모든 입력(Input)과 CPU 명령 실행 결과가 네트워크를 통해 Secondary VM으로 실시간 복제됩니다.
이 복제(로그 스트림)는 매우 엄격하게 이루어지며, 두 VM은 동일한 명령어를 동시에(Lockstep) 실행하여 항상 동일한 상태를 유지합니다.

5.2. 구성 시 주의사항 및 요구사항

전용 네트워크: FT 로깅을 위한 VMkernel 포트가 활성화되어야 하며, 데이터 손실 없는 실시간 복제를 위해 10Gbps 이상의 고속 전용 네트워크 사용이 강력히 권장됩니다.
호스트 분리: Primary VM과 Secondary VM은 항상 다른 ESXi 호스트에 위치해야 합니다.
공유 스토리지: HA와 마찬가지로 모든 호스트는 VM 파일이 위치한 공유 스토리지에 접근 가능해야 합니다.
vCPU 제한: 구 버전에서는 1vCPU VM만 지원했으나, 최신 버전에서는 최대 8vCPU까지 지원됩니다.

6. VMware HA와 FT의 사용 시나리오

구분	HA가 적합한 경우	FT가 적합한 경우
예시	웹 서버, 이메일 서버, 파일 서버, 대부분의 데이터베이스 서버	금융 거래 시스템, 의료 시스템 (환자 모니터링), 미디어 스트리밍 서버, 실시간 재고 관리 시스템 등
요구사항	짧은 중단 시간은 허용되지만, 자동 복구가 필수인 경우	단 1초의 중단이나 데이터 손실도 허용되지 않는 경우
고려 사항	비용 대비 효율성 및 광범위한 적용성을 중시할 때	가용성이 성능이나 비용보다 우선할 때

728x90

'InfraPlatform' 카테고리의 다른 글

(꿀팁) Red Hat 계열 리눅스 시간 관리 방법 (1)	2026.01.02
리눅스에서 숫자 계정 생성 정책 허용 (useradd --badname 활용) (11)	2025.11.29
디자인 과학 연구 방법론(Design Science Research Methodology, DSRM) (0)	2025.10.29
Linux - firewall-cmd 서비스 명칭 기반 관리 (0)	2025.10.15
VMware vSphere Foundation 8 VCF VSP FND 라이선스 (1)	2025.09.12
HP 노트북 cmos 설정. 전력 효율기능 SA GV (System Agent Geyserville) 실시간 오버클럭 (1)	2025.08.15
파일시스템-RAID-ZFS - Zettabyte File System (1)	2025.08.12

현재글VMware 가용성 HA와 FT

AgileBus - IT 기술자를 위한 최신 기술 Trends