728x90

VMware 가용성 HA와 FT
VMware는 가상 머신(VM)의 가용성을 높이기 위해 High Availability (HA)와 Fault Tolerance (FT)라는 두 가지 주요 기능을 제공합니다. 이들은 목표와 작동 방식에서 중요한 차이점을 가집니다.
1. VMware High Availability (HA)
🚀 개념
VMware HA는 ESXi 호스트(물리적 서버)의 장애 발생 시, 해당 호스트에서 실행 중이던 가상 머신들을 클러스터 내의 다른 정상 호스트에서 자동으로 재시작하여 서비스 중단 시간을 최소화하는 기능입니다.
✨ 특장점
- 자동 복구 (Failover): 호스트 장애 감지 후 VM을 다른 호스트에서 자동 재시작합니다.
- 비용 효율성: Fault Tolerance에 비해 하드웨어 및 라이선스 비용이 적게 듭니다.
- 광범위한 적용: 클러스터 레벨에서 작동하며, 대부분의 중요 업무 시스템에 적용 가능합니다.
- 데이터 무결성: 공유 스토리지(Shared Storage)를 사용하여 데이터 손실을 방지합니다.
⚠️ 단점
- 다운타임 발생: 호스트 장애 감지 및 다른 호스트에서 VM을 재시작하는 동안 짧은 서비스 중단 시간(Downtime)이 발생합니다 (수 초에서 수 분).
- 실행 중인 데이터 손실 가능성: 장애 발생 시 VM이 재시작되므로, 장애 직전에 메모리(RAM)에 있던 실행 중인 데이터나 트랜잭션이 일부 손실될 수 있습니다.
🛠️ 구성 방법 (개요)
- 클러스터 생성: 2개 이상의 ESXi 호스트를 포함하는 vSphere 클러스터를 생성합니다.
- 공유 스토리지 구성: 모든 ESXi 호스트가 동일한 공유 스토리지 (예: Fibre Channel SAN, iSCSI, NFS, vSAN)에 접근할 수 있도록 구성합니다. VM 파일이 여기에 저장됩니다.
- VMware HA 활성화: vSphere Client에서 클러스터 설정을 열고 vSphere HA를 활성화합니다.
- 네트워크 구성: 호스트 간의 상태 감시를 위한 관리 네트워크(Management Network) 및 데이터스토어 하트비트(Datastore Heartbeat) 네트워크를 구성합니다.
- 승인 제어 (Admission Control) 설정: 장애 허용 한도(예: "몇 개의 호스트 장애를 허용할 것인가")를 설정하여 클러스터의 리소스 할당을 관리합니다.

2. VMware Fault Tolerance (FT)
🛡️ 개념
VMware FT는 제로 다운타임(Zero Downtime) 및 제로 데이터 손실(Zero Data Loss)을 목표로, 하나의 VM을 두 개의 다른 ESXi 호스트에서 동기화된 복제본(Primary VM 및 Secondary VM)으로 실시간 실행하는 기능입니다.
✨ 특장점
- 제로 다운타임 (Zero Downtime): Primary VM이 장애를 일으키면 Secondary VM이 즉시 작동을 인계하므로, 서비스 중단 없이 연속적인 가용성을 제공합니다.
- 제로 데이터 손실 (Zero Data Loss): Primary VM의 모든 CPU 및 메모리 상태 변화가 Secondary VM에 실시간으로 복제되므로, 장애 발생 시 어떤 데이터나 트랜잭션도 손실되지 않습니다.
- 투명한 페일오버: 사용자나 애플리케이션에 장애가 발생했음을 알리지 않고 페일오버가 완료됩니다.
⚠️ 단점
- 높은 리소스 요구사항: Primary VM과 Secondary VM이 항상 동시 실행되므로 CPU, 메모리, 네트워크 등의 리소스 소모가 2배가 됩니다.
- 성능 영향: 실시간 복제를 위한 오버헤드로 인해 VM 성능에 약간의 영향이 있을 수 있습니다.
- VM 제한: 지원하는 가상 CPU(vCPU) 개수에 제한이 있으며 (현재 버전에서는 최대 8vCPU), 라이선스 레벨에 따라 다릅니다. 미션 크리티컬한 워크로드에 제한적으로 사용됩니다.
- 전용 네트워크: 복제 트래픽을 위한 전용 FT 로깅 네트워크가 필요하며, 고대역폭 네트워크(예: 10Gbps 이상)가 권장됩니다.
🛠️ 구성 방법 (개요)
- HA 클러스터 구성: Fault Tolerance는 HA 클러스터 내에서 작동하므로, HA가 먼저 활성화되어 있어야 합니다.
- 전용 네트워크 설정: VMkernel 포트 그룹을 생성하고 Fault Tolerance 로깅 트래픽을 활성화합니다. 높은 처리량을 위해 최소 2개의 물리적 NIC를 전용으로 할당하는 것이 좋습니다.
- FT 활성화:
- vSphere Client에서 보호할 가상 머신을 마우스 오른쪽 버튼으로 클릭합니다.
- Fault Tolerance를 선택하고 켜기(Turn On Fault Tolerance)를 클릭합니다.
- 시스템이 Secondary VM을 생성하고 다른 호스트에 배치하여 실시간 동기화를 시작합니다.
💡 3. HA와 FT 비교 요약
| 구분 | VMware HA (High Availability) | VMware FT (Fault Tolerance) |
|---|---|---|
| 목표 | 호스트 장애 발생 시 최소한의 다운타임으로 복구 (자동 재시작) | 호스트 장애 발생 시 제로 다운타임 및 제로 데이터 손실 (실시간 복제 및 인계) |
| 작동 방식 | 호스트 장애 감지 후 클러스터 내 다른 호스트에서 VM 재시작 | 두 호스트에서 Primary/Secondary VM을 실시간 동기화하여 동시 실행 |
| 다운타임 | 짧은 중단 시간 발생 (재시작 시간 소요) | 제로 다운타임 (즉시 인계) |
| 데이터 손실 | 장애 직전 메모리 데이터는 일부 손실 가능 | 제로 데이터 손실 |
| 적합한 워크로드 | 일반적인 업무 및 중요 시스템 (대부분의 VM) | 미션 크리티컬한 애플리케이션 (절대 중단이 허용되지 않는 VM) |
| 리소스 오버헤드 | 상대적으로 낮음 (장애 시에만 부하 발생) | Primary/Secondary VM 동시 실행으로 높음 (2배) |
4. VMware HA (High Availability) 상세 구성 및 작동
4.1. 작동 구성 요소
- FDM (Fault Domain Manager): 각 ESXi 호스트에 설치되는 에이전트로, 클러스터 내에서 마스터(Master) 호스트와 슬레이브(Slave) 호스트로 역할을 나눕니다. 마스터는 클러스터 상태와 장애 발생 시 복구를 조정합니다.
- 하트비트 (Heartbeat): ESXi 호스트 간에 네트워크를 통해 서로의 상태를 주기적으로 확인합니다.
- 데이터스토어 하트비트 (Datastore Heartbeat): 관리 네트워크 장애 시, 공유 데이터스토어를 이용하여 호스트의 생존 여부를 확인하는 보조 메커니즘입니다.

4.2. 복구 절차
- 호스트 장애 감지: 마스터 호스트가 네트워크 하트비트 및 데이터스토어 하트비트를 통해 슬레이브 호스트의 장애를 감지합니다.
- 페일오버 시작: 마스터 호스트는 장애가 발생한 호스트에 있던 VM들을 식별합니다.
- VM 재시작: 식별된 VM들을 클러스터 내의 정상적인 다른 호스트에 할당하고, 공유 스토리지의 VM 파일들을 사용하여 VM을 자동으로 Power On (재시작) 합니다.
5. VMware FT (Fault Tolerance) 상세 기술 및 요구사항
5.1. vLockstep 기술
FT의 핵심은 vLockstep 기술입니다.
- Primary VM에서 발생하는 모든 입력(Input)과 CPU 명령 실행 결과가 네트워크를 통해 Secondary VM으로 실시간 복제됩니다.
- 이 복제(로그 스트림)는 매우 엄격하게 이루어지며, 두 VM은 동일한 명령어를 동시에(Lockstep) 실행하여 항상 동일한 상태를 유지합니다.
5.2. 구성 시 주의사항 및 요구사항
- 전용 네트워크: FT 로깅을 위한 VMkernel 포트가 활성화되어야 하며, 데이터 손실 없는 실시간 복제를 위해 10Gbps 이상의 고속 전용 네트워크 사용이 강력히 권장됩니다.
- 호스트 분리: Primary VM과 Secondary VM은 항상 다른 ESXi 호스트에 위치해야 합니다.
- 공유 스토리지: HA와 마찬가지로 모든 호스트는 VM 파일이 위치한 공유 스토리지에 접근 가능해야 합니다.
- vCPU 제한: 구 버전에서는 1vCPU VM만 지원했으나, 최신 버전에서는 최대 8vCPU까지 지원됩니다.
6. VMware HA와 FT의 사용 시나리오
| 구분 | HA가 적합한 경우 | FT가 적합한 경우 |
|---|---|---|
| 예시 | 웹 서버, 이메일 서버, 파일 서버, 대부분의 데이터베이스 서버 | 금융 거래 시스템, 의료 시스템 (환자 모니터링), 미디어 스트리밍 서버, 실시간 재고 관리 시스템 등 |
| 요구사항 | 짧은 중단 시간은 허용되지만, 자동 복구가 필수인 경우 | 단 1초의 중단이나 데이터 손실도 허용되지 않는 경우 |
| 고려 사항 | 비용 대비 효율성 및 광범위한 적용성을 중시할 때 | 가용성이 성능이나 비용보다 우선할 때 |
728x90
반응형
'InfraPlatform' 카테고리의 다른 글
| (꿀팁) Red Hat 계열 리눅스 시간 관리 방법 (1) | 2026.01.02 |
|---|---|
| 리눅스에서 숫자 계정 생성 정책 허용 (useradd --badname 활용) (11) | 2025.11.29 |
| 디자인 과학 연구 방법론(Design Science Research Methodology, DSRM) (0) | 2025.10.29 |
| Linux - firewall-cmd 서비스 명칭 기반 관리 (0) | 2025.10.15 |
| VMware vSphere Foundation 8 VCF VSP FND 라이선스 (1) | 2025.09.12 |
| HP 노트북 cmos 설정. 전력 효율기능 SA GV (System Agent Geyserville) 실시간 오버클럭 (1) | 2025.08.15 |
| 파일시스템-RAID-ZFS - Zettabyte File System (1) | 2025.08.12 |