728x90
인공지능 보안 위협 4가지
다음은 대표적인 인공지능 보안 위협 4가지와 그에 대응하는 방어 기법 을 알아 봅니다.
. AI 모델의 학습이 데이터에 의존하기 때문에, 이러한 데이터의 양과 질이 AI 모델의 작업 성능에 큰 영향을 끼칠 수 있습니다.
하지만, 일반적인 상황에서 질 좋은 대량의 데이터를 수집하기 위해서는 많은 노력이 필요합니다.
즉,일반적인 상황에서 성능이 매우 높은 AI 모델을 학습하기 어렵다는 것을 의미합니다. 그렇기 때문에 자본을 가진 여러 기업들이 자사가 수집한 대량의 데이터를 통해 AI 모델을 훈련시켜 고객에게 API 형태로 AI 모델 서비스를 제공하는 사업이 증가하고 있습니다.
이를 MLasS (Machine Learning as Service)라고 하며, Amazon, Microsoft 등과 같은 세계적인 대기업과 여러 중소기업에서 서비스를 진행하고 있다.
🛡️ 인공지능 보안 위협 과 방어 기법 요약
공격 유형 | 설명 | 대표 방어 기법 | 관련 연구 논문 |
Poisoning Attack | 학습 데이터에 악성 데이터를 주입하여 모델 성능 저하 유도 | 데이터 증강 기반 방어, 이상치 탐지, 클린 라벨 필터링 | 데이터 증강 기반의 포이즈닝 방어 기법 |
Adversarial Attack | 테스트 데이터에 미세한 노이즈를 추가해 모델 오작동 유도 | 적대적 학습, 이미지 복원, Attention 기반 방어 | 적대적 AI 공격 및 방어 기법 연구 Attention 기반 강건성 향상 연구 |
Model Inversion Attack | 모델 출력값을 반복 분석하여 학습 데이터 복원 | 출력 왜곡, 데이터 셔플링, 차등 프라이버시 | 생성형 모델 기반 방어 기법 ViT 기반 방어 기법 |
Model Extraction Attack | 반복 쿼리로 모델 구조 및 성능 복제 | 출력 제한, 쿼리 탐지, 워터마킹, 데이터 비식별화 | 딥러닝 모델 추출 공격 동향 및 방어 ECG 데이터 기반 방어 기법 |
인공지능 보안 위협 - 1. Poisoning Attack 기법
1. Poisoning Attack 기법 : 학습 데이터 조작
Poisoning Attack은 학습 데이터 자체를 조작해 모델의 동작을 왜곡하거나 성능을 저하시켜 결국 시스템 전체를 무너뜨리는 공격입니다. 주요 내용을 정리하면 다음과 같습니다.
- 정의
• 학습 데이터셋에 악성 데이터를 섞어 모델 학습 과정에서 잘못된 패턴을 학습하도록 유도하는 공격 기법입니다.
공격자는 모델의 정상 동작(Availability)을 저해하거나, 특정 트리거에만 반응하는 백도어 모델을 심어 Integrity를 침해합니다.
- 공격 유형
– 데이터 포이즈닝 기법: 레이블 뒤집기(Label-flipping), 클린-라벨 포이즈닝(Clean-label), 피처 충돌(Feature-collision) 등이 대표적 방법입니다.
* 레이블 뒤집기(Label-flipping) :
. 데이터셋의 일부 샘플의 정답 레이블을 공격자가 의도적으로 잘못된(타겟) 레이블로 바꿔치기하여 잘못된 클래스로 분류하도록 유도하는 데이터 포이즈닝(중독) 공격
. ex) 개 이미지를 고양이로, 고양이 이미지를 개로 레이블링하여 학습
* 클린-라벨 포이즈닝(Clean-label):
. 공격자가 데이터의 입력(이미지, 텍스트 등)은 변형하지 않거나, 변형이 거의 감지되지 않도록 하면서, 정상적인(정확한) 레이블을 부여하는 공격
. 특정 조건에서 오작동(백도어, 오분류 등)하도록 유도하지만, 데이터 자체와 레이블이 모두 정상적으로 보여 탐지
. ex) 이미지에 미세한 변형(perturbation)을 가하지만, 여전히 사람이 볼 때는 정상적인 레이블
* 피처 충돌(Feature-collision) :
. 입력 데이터에 미세한 변형을 가해, 해당 입력의 내부 피처(특징)가 공격자가 지정한 타겟 클래스의 피처와 유사해지도록 만드는 공격
. 모델이 변형된 입력을 타겟 클래스와 혼동하도록 유도
. ex) 공격자는 대리 모델을 이용해 이미지의 피처를 타겟 레이블의 피처와 정렬시키는 미세한 섭동(perturbation)을 추가
– Availability (중요도 저해)
• 주로 무작위 노이즈나 레이블을 뒤섞어 전체 성능을 낮춥니다.
– Integrity (백도어·표적 공격)
• 특정 입력(트리거)이 주어졌을 때만 잘못된 예측을 내도록 “숨겨진 기능”을 삽입합니다. - 대표 사례
– MS의 챗봇 Tay: 학습에 악성 트윗이 포함돼 혐오 발언을 반복하도록 오작동을 일으킴.
– BadNets (Gu et al., 2017): 이미지에 작은 스티커(트리거)를 심어 공격자가 지정한 잘못된 클래스로 분류하게 함. - 방어 기법
– 데이터 검증 & 이상치 탐지: 통계적 방법이나 클러스터링으로 이상 샘플을 걸러냄.
– 데이터 클렌징(Data Sanitization): 의심되는 샘플 제거·수정.
– 견고 학습(Robust Training): 트리밍(trimmed) 손실, 인증된 방어(certified defense) 등의 기법으로 공격에 강인한 모델 학습.
– 차등 프라이버시(Differential Privacy): 데이터 민감도를 제한해 개별 샘플 조작의 영향 축소. - 주요 연구 논문
– Biggio et al., “Poisoning attacks against support vector machines” (2012)
– Gu et al., “BadNets: Identifying vulnerabilities in the machine learning model supply chain” (2017)
– Shafahi et al., “Poison Frogs! Targeted Clean-Label Backdoor Attacks on Neural Networks” (2018)
728x90
반응형
'BigData' 카테고리의 다른 글
인공지능 보안 위협 4가지 - 3. Model Inversion Attack (1) | 2025.06.29 |
---|---|
인공지능 보안 위협 4가지 - 2.Adversarial Attack 기법 (3) | 2025.06.29 |
Chain-of-Thought의 핵심 (3) | 2025.06.19 |
SQL - UPSERT 관련 기술 비교 Oracle-Mysql-YugaByte-SingleStore (1) | 2025.06.17 |
학습 데이터 증폭 및 증강 기술의 역사적 흐름 (3) | 2025.06.14 |
학습 데이터 증폭 이론 (1) (3) | 2025.06.14 |
빅테크가 이끄는 인공지능 LLM 기술 동향 - GPT-4.5, Claude 3.7 Sonnet, Gemini 2.5 Pro, DeepSeek (13) | 2025.05.21 |