인공지능 보안 위협 4가지
다음은 대표적인 인공지능 보안 위협 4가지와 그에 대응하는 방어 기법 을 알아 봅니다.
. AI 모델의 학습이 데이터에 의존하기 때문에, 이러한 데이터의 양과 질이 AI 모델의 작업 성능에 큰 영향을 끼칠 수 있습니다.
하지만, 일반적인 상황에서 질 좋은 대량의 데이터를 수집하기 위해서는 많은 노력이 필요합니다.
즉,일반적인 상황에서 성능이 매우 높은 AI 모델을 학습하기 어렵다는 것을 의미합니다. 그렇기 때문에 자본을 가진 여러 기업들이 자사가 수집한 대량의 데이터를 통해 AI 모델을 훈련시켜 고객에게 API 형태로 AI 모델 서비스를 제공하는 사업이 증가하고 있습니다.
이를 MLasS (Machine Learning as Service)라고 하며, Amazon, Microsoft 등과 같은 세계적인 대기업과 여러 중소기업에서 서비스를 진행하고 있다.
🛡️ 인공지능 보안 위협 과 방어 기법 요약
| 공격 유형 | 설명 | 대표 방어 기법 | 관련 연구 논문 |
| Poisoning Attack | 학습 데이터에 악성 데이터를 주입하여 모델 성능 저하 유도 | 데이터 증강 기반 방어, 이상치 탐지, 클린 라벨 필터링 | 데이터 증강 기반의 포이즈닝 방어 기법 |
| Adversarial Attack | 테스트 데이터에 미세한 노이즈를 추가해 모델 오작동 유도 | 적대적 학습, 이미지 복원, Attention 기반 방어 | 적대적 AI 공격 및 방어 기법 연구 Attention 기반 강건성 향상 연구 |
| Model Inversion Attack | 모델 출력값을 반복 분석하여 학습 데이터 복원 | 출력 왜곡, 데이터 셔플링, 차등 프라이버시 | 생성형 모델 기반 방어 기법 ViT 기반 방어 기법 |
| Model Extraction Attack | 반복 쿼리로 모델 구조 및 성능 복제 | 출력 제한, 쿼리 탐지, 워터마킹, 데이터 비식별화 | 딥러닝 모델 추출 공격 동향 및 방어 ECG 데이터 기반 방어 기법 |
인공지능 보안 위협 - 2.Adversarial Attack 기법
2. Adversarial Attack 기법 : 미세한 교란 AI 모델이 잘못된 예측 유도
Adversarial Attack은 정상 입력에 사람 눈에 잘 보이지 않는 미세한 교란(perturbation)을 추가해, AI 모델이 잘못된 예측을 내도록 유도하는 공격 기법입니다.
주요 특징을 정리하면 다음과 같습니다.
정의
– 모델의 결정 경계(decision boundary)를 교란해, 원본과 거의 구분되지 않는 입력(adversarial example)을 생성함으로써 오작동을 일으킵니다.
– 공격자는 모델 내부 정보(파라미터, 그래디언트)에 대한 접근 권한 유무에 따라 화이트박스(white-box)·블랙박스(black-box) 방식으로 나눕니다.공격 목표
– Untargeted Attack: “모델이 틀린 클래스라면 어떤 클래스든 상관없다.”
– Targeted Attack: “이 교란을 주면 반드시 특정 클래스 Y로 예측하게 하겠다.”대표 기법
• FGSM (Fast Gradient Sign Method)
– 입력에 대한 손실 함수의 그래디언트 부호(sign)에 ε 스케일을 곱해 한 번에 교란을 주는 단일 스텝 기법
• PGD (Projected Gradient Descent)
– FGSM을 여러 번 반복 적용하며, 매 스텝마다 입력을 허용 범위(예: L∞ ball)로 투영(project)
• DeepFool
– 최소한의 L₂ 노름 크기로 decision boundary까지 도달하는 최적화 기반 기법
• C&W (Carlini & Wagner)
– L₂, L₀, L∞ 제약 조건을 두고 손실 함수에 교란 크기와 오분류 조건을 동시에 최적화평가 지표
– Attack Success Rate (ASR): 교란 후 공격 목표가 달성된 비율
– Distortion (‖δ‖ₚ): 원본 대비 교란의 크기 (주로 L∞, L₂ 노름)
– Robust Accuracy: 공격 입력에서도 유지되는 모델의 정확도활용 분야 & 위협
– 컴퓨터 비전: 이미지 분류·객체 검출 시스템 교란
– 음성 인식: 음성비서 명령 왜곡
– 자연어 처리: 텍스트 분류·감정 분석 오작동
– 자율주행, 의료 진단 등 안전·프라이버시 민감 영역에서 치명적 위협대응 기법(개요)
– Adversarial Training: 공격 예제를 포함해 재학습
– Input Transformation: JPEG 압축, Feature Squeezing 등으로 교란 제거
– Detection-and-Reject: 이상치 탐지 모델로 적대적 예제 식별 후 차단
주요 Adversarial Attack 기법
아래에 네 가지 대표적 적대적 공격 기법에 대해 “개념”, “원리(알고리즘 요약)”, “대응 방법” 들 입니다.
| 공격 기법 | 게념 | 원리 | 대응방법 |
|---|---|---|---|
| 1. FGSM Fast Gradient Sign Method | 한 번의 그래디언트 계산으로 빠르게 adversarial example 생성 | • 손실함수 (J(θ,x,y))의 입력 (x)에 대한 기울기 (\nabla_xJ) 부호(sign) 방향으로 (\epsilon)만큼 이동 • 수식: (x_{adv}=x+\epsilon\cdot\text{sign}(\nabla_xJ)) | • 적대적 학습(Adversarial Training) • 입력 전처리 (JPEG 압축, feature squeezing) • 탐지–차단(검출 모델) |
| 2. PGD Projected Gradient Descent | FGSM의 반복 확장판으로, (\epsilon)-ball 내에서 강력한 반복 공격 | • 초기 (x_0=x) • 매 스텝: (x_{t+1}' = x_t + \alpha\cdot\text{sign}(\nabla_xJ)) • (\epsilon) 범위로 투영: (x_{t+1}=\text{Clip}{[x-\epsilon,x+\epsilon]}(x{t+1}')) | • PGD 적대적 학습 (Madry et al. 방식) • 인증된 방어(Certified Defense) • 평활화(Gradient Smoothing) |
| 3. DeepFool | 최소한의 (L_2) 노름으로 결정 경계까지 도달하는 최적화 기반 공격 | • 현재 지점 (xk)에서 각 클래스 결정 경계까지 최소 거리 (\deltak) 계산 • (\deltak)를 누적해 (x{k+1}=xk+\deltak) 반복 • 모델이 오분류할 때까지 수행 | • 경계 인증된 방어(Certified Boundary) • 입력 랜덤화(Randomized Smoothing) • Gradient Masking (주의: 취약점 존재) |
| 4. C&W Carlini & Wagner | 왜곡 크기와 오분류 조건을 동시에 최적화하는 고강도 공격 | • 최적화 문제: (\min_\delta |\delta|_p + c\cdot\ell(x+\delta)) • (\ell)은 “다른 클래스 로짓–타깃 클래스 로짓 + margin” • L₂/L₀/L∞ 제약을 모두 지원 | • 방어적 증류(Defensive Distillation) • Gradient Regularization • 출력 무작위화(Output Randomization) |
5. ZOO (Zeroth-Order Optimization Attack)
개념
모델 내부(파라미터·그래디언트)에 접근할 수 없는 블랙박스 환경에서, 유한 차분(finite-difference)을 이용해 흑 box 모델의 gradient를 추정한 뒤 최적화 기반 공격(C&W)을 수행하는 기법.
원리
- 목표 손실 함수 ℓ(x): C&W 공격에서 정의한 “오분류 유도 + 왜곡 최소화” 형태
- 특징
장점:
• 화이트박스 정보 전혀 없이도 C&W 수준의 강력한 공격 가능
• 타깃/비타깃 공격 모두 지원
단점:
• 차원 d당 2 queries 필요 → 쿼리 수 O(T·d) (고차원 이미지엔 매우 비효율적)
• 느린 수렴, 과도한 API 호출 비용
6. HSJ (HopSkipJumpAttack)
개념
모델 예측 **레이블(결과값)**만 얻을 수 있는 decision-based 블랙박스 환경에서, 경계점(boundary) 탐색과 랜덤 서치 기반 gradient 근사를 결합해 효율적인 공격을 수행하는 기법.
특징
장점:
• 레이블 정보만 활용 → 최강의 블랙박스 시나리오 대응
• 쿼리수 수십~수백 차원 독립적으로 크게 늘지 않음
• 경계 가까이 탐색 → perturbation 크기 최소화단점:
• 구현 복잡도↑, 무작위성에 따른 재현성↓
• 경사 근사 단계의 샘플 수·스케줄 튜닝 필요
1. 1) 경계 탐색 - 이분 탐색(Binary Search)
Input: x, ε, max_iters
Initialize x_adv satisfying model(x_adv) ≠ model(x)
for t=1…max_iters do
// 1) 경계 탐색
x_boundary ← BinarySearchBoundary(x, x_adv)
// 2) 경사 방향 근사
Sample {uₖ} on unit sphere
ĝ ← Σ sign(model(x_boundary+δuₖ)-model(x_boundary))·uₖ
// 3) 이동 & 투영
x_adv ← Clip_{[x–ε,x+ε]}( x_adv + β_t·ĝ/‖ĝ‖₂ )
end
return x_adv원리
- 경계 초기화
- x₀: 원본 x, x_adv⁰: 충분히 큰 교란을 준 예제(랜덤 노이즈 등으로 오분류 보장)
- 경계탐색 : 이분 탐색(Binary Search)
- x_boundary = mid-point(x, x_adv) 를 반복해 decision boundary 위 점을 찾음
- 경사 근사
- boundary 점 근처에서 무작위 방향 {uₖ} 샘플링 → label change 비율로 gradient 방향 ĝ 근사
- 업데이트 & 투영
- x_adv ← Clip_{ε-ball}( x_adv – α·ĝ )
- 다시 boundary로 이분 탐색, gradient 근사, … 반복
■ Zoo vs HSJ 비교 및 대응 요약
| 기법 | 정보 접근 | 쿼리 비용 | 왜곡 크기 | 강점 | 도전 과제 |
| ZOO | 확률·로짓 | O(T·d) | 작음 (C&W) | 화이트박스 못지않은 성능 | 극단적 쿼리 과다 |
| HSJ | 최종 레이블 | 수십∼수백(T) | 중간∼작음 | 최약 블랙박스 환경 대응 | 경계 탐색·근사 튜닝 필요 |
■ 대표 방어
- 쿼리 제한·rate-limit
- 출력 노이즈 삽입 (확률/로짓 은폐)
- API 인증 강화
- 적대적 트레이닝·평활화
![]()
■ 핵심 방어 전략
- Adversarial Training: 공격 샘플을 학습에 포함시켜 모델을 견고하게 함
- 입력·출력 무작위화: 압축·노이즈 삽입으로 교란 효과 제거
- 인증된 방어(Certified Defense): 수식적으로 특정 ε 범위 내 견고성 보장
- 탐지 및 거부: 이상치 탐지 모델로 적대적 예제 필터링
핵심 방어 /대응 기법 정리
6.1 Attention-증강 적대적 학습
• 핵심 아이디어: 기존의 adversarial training이 오직 손실함수(adversarial loss)에만 집중하는 한계를 극복하기 위해, 입력 이미지에 대한 attention map을 생성하는 모듈을 모델 앞단에 삽입. 그 위에 PGD 기반 적대적 학습을 수행함으로써 은닉층 특성이 왜곡되지 않도록 보강한다.
• 성과: CIFAR-10 기준으로 FGSM, PGD, BIM 등 다양한 공격에 대해 일반 모델 대비 높은 견고도(robust accuracy)와 우수한 clean accuracy를 동시에 달성.
6.2 입력 변환(Input Transformation)
• 핵심 아이디어: 공격자가 덧붙인 미세한 노이즈를 제거 또는 약화시키기 위해 JPEG 압축, 필터링, feature squeezing, 이미지 복원망 등을 활용.
• 특징: 별도 재학습 없이 전처리만으로 적용 가능하지만, 과도한 변환 시 clean sample 정확도가 저하될 수 있음.
6.3 탐지 및 거부(Detection-and-Reject)
• 핵심 아이디어: LDA+K-means, 통계적 특성, 이상치 탐지 모델 등을 통해 입력이 적대적 예제인지 판별.
• 적용 예시: 부산대 연구진은 5가지 공격 유형(FGSM, PGD, DeepFool, C&W 등)을 통계적 분류기로 구분하고, 탐지된 예제만 필터링하는 방식으로 방어 성능을 높였음.
7. Adversarial Attack 분야 연구 논문
Adversarial Attack 분야에서 널리 인용되는 대표 연구 논문들입니다.
각 기법의 핵심 아이디어와 기여도도 함께 정리했습니다.
“Explaining and Harnessing Adversarial Examples”
• 저자: Ian J. Goodfellow, Jonathon Shlens, Christian Szegedy (2014)
• 기법: FGSM (Fast Gradient Sign Method) 제안
• 기여: 단일 그래디언트 스텝으로 빠르게 적대적 예제를 생성하는 방법을 제시하며, 적대적 공격 연구의 출발점을 마련“DeepFool: a Simple and Accurate Method to Fool Deep Neural Networks”
• 저자: Seyed-Mohsen Moosavi-Dezfooli, Alhussein Fawzi, Pascal Frossard (2016)
• 기법: DeepFool
• 기여: 결정 경계에 최소한으로 도달하는 L₂ 기반 반복 최적화 공격을 제안, 공격 효율성과 왜곡 최소화를 동시에 달성“Towards Evaluating the Robustness of Neural Networks”
• 저자: Nicholas Carlini, David Wagner (2017)
• 기법: C&W Attack
• 기여: L₀, L₂, L_∞ 제약을 조합한 최적화 기반 공격 프레임워크를 제안해 많은 방어 기법을 무력화“Practical Black-Box Attacks against Machine Learning”
• 저자: N. Papernot, P. McDaniel, A. Madry et al. (2017)
• 기법: ZOO (Zeroth Order Optimization)
• 기여: 내부 모델 정보 없이 순수 쿼리만으로도 적대적 예제 생성이 가능함을 입증“Adversarial Examples in the Physical World”
• 저자: Alexey Kurakin, Ian Goodfellow, Samy Bengio (2016)
• 기법: 현실환경에서의 FGSM/PGD 확장 - PGD는 FGSM을 여러 번 반복
• 기여: 프린트·사진 촬영 등 실제 환경에서의 공격 성공 가능성을 실험적으로 보여줌“Ensemble Adversarial Training: Attacks and Defenses”
• 저자: Anish Athalye, Nicholas Carlini, David Wagner (2018)
• 기법: 적대적 학습 시 외부 모델을 혼합해 다양한 공격 견제
• 기여: 단일 모델에만 익숙해진 방어를 넘어, 여러 출처의 공격 예제를 학습에 포함시켜 견고성 제고“One Pixel Attack for Fooling Deep Neural Networks”
• 저자: Jiawei Su, Danilo Vasconcellos Vargas, Sakurai Kouichi (2019)
• 기법: One-pixel Attack
• 기여: 이미지 내 단 한 개 픽셀만 교란해도 오분류를 유발할 수 있음을 보여주며, 공격의 극단적 희소성 가능성 제시“HopSkipJumpAttack: A Query-Efficient Decision-Based Attack”
• 저자: Yangjie Chen, Jiawei Zhang, Cho-Jui Hsieh (2020)
• 기법: HSJ Attack
• 기여: 흑박스 환경에서 레이블 정보만으로도 적은 쿼리 수로 강력한 공격을 수행하는 알고리즘 제안
—
이 외에도 최근에는 XAI(설명가능 AI)를 활용해 공격 효율을 높이거나, 강화학습 기반 공격 기법, 도메인별(의료·자율주행) 특화 공격 등이 활발히 연구되고 있습니다.
'BigData' 카테고리의 다른 글
| Supervised Fine-Tuning(SFT)과 Direct Preference Optimization(DPO) (0) | 2025.08.02 |
|---|---|
| 생성형 AI 데이터 활용 정책과 이용자 보호에 관한 주요 정책 동향 (1) | 2025.07.27 |
| 인공지능 보안 위협 4가지 - 3. Model Inversion Attack (1) | 2025.06.29 |
| 인공지능 보안 위협 4가지 - 1. Poisoning Attack 기법 (1) | 2025.06.29 |
| Chain-of-Thought의 핵심 (3) | 2025.06.19 |
| SQL - UPSERT 관련 기술 비교 Oracle-Mysql-YugaByte-SingleStore (1) | 2025.06.17 |
| 학습 데이터 증폭 및 증강 기술의 역사적 흐름 (3) | 2025.06.14 |