※ 이 글은 chatGPT를 기반으로 작성한 글입니다.
※ SRILAB의 Reliable and Interpretable Artificial Intelligence 강의를 기반으로 작성한 글입니다.
① 표적 공격(Targeted Attack, 타겟 공격)은 입력 데이터를 의도적으로 특정 레이블로 잘못 분류하도록 만드는 공격 방식이다.
㉠ 판다로 분류된 이미지를 인위적으로 긴팔 원숭이로 분류하도록 조작하는 것이 표적 공격의 예시이다.
②비표적 공격(Untargeted Attack, 비타겟 공격)은 입력 데이터를 어떤 잘못된 레이블로 분류하도록 만드는 공격 방식이다.
㉡ 판다로 레이블된 이미지를 판다가 아닌 다른 어떤 동물로 분류되게 조작하는 것이 비표적 공격의 예시이다.
③ 표적 공격을 수식으로 작성하면 다음과 같다.
Input:
- 신경망 \(f: X \rightarrow C\)
- 입력 데이터 \(x \in X\)
- 목표 레이블 \(t \in C\), such that \(f(x)\neq t\)
Output:
- 입력 데이터 \(x\)에 변조 \(\eta\)를 수행해 \(f(x+\eta = t)\) 가 되도록 한다.
㉠ 이 수식은 원본 이미지 \(x\)에 어떤 변조 \(\eta\)를 가하여, 신경망 \(f\)가 그 결과를 목표 레이블 \(t\)로 잘못 분류(mis-classify)되도록 만드는 과정을 나타낸다.
④ 비표적 공격을 수식으로 작성하면 다음과 같다.
Input:
- 신경망 \(f: X \rightarrow C\)
- 입력 데이터 \(x \in X\)
Output:
- 입력 데이터 \(x\)에 변조 \(\eta\)를 수행해 \(f(x+\eta \neq t)\) 가 되도록 한다.
㉠ 이 수식은 입력 데이터 \(x\)에 변조 \(\eta\)를 가함으로써, 신경망 \(f\)가 그 결과를 원래의 타겟 라이블 \(t\)와 다르게 분류하도록 만드는 과정을 나타낸다.
ⓐ 이 때 중요한 점은 비표적 공격의 목표는 정해진 특정 레이블로의 오분류가 아니라 단순히 원래 레이블과 다른 어떠한 레이블로 분류되게 하는 것이다.
'All about Machine-Learning > Reliable Interpretable AI' 카테고리의 다른 글
적대적 공격(Adversarial Attacks) (0) | 2023.12.26 |
---|