All about Machine-Learning/Reliable Interpretable AI

Targeted vs. Untargeted Attacks

※ 이 글은 chatGPT를 기반으로 작성한 글입니다.

※ SRILAB의 Reliable and Interpretable Artificial Intelligence 강의를 기반으로 작성한 글입니다.

 

 

Reliable and Interpretable Artificial Intelligence

Graduate course involving the analysis, robustness and visualization of neural networks, as well as probabilistic programming.

www.sri.inf.ethz.ch

 

① 표적 공격(Targeted Attack, 타겟 공격)은 입력 데이터를 의도적으로 특정 레이블로 잘못 분류하도록 만드는 공격 방식이다.

  ㉠ 판다로 분류된 이미지를 인위적으로 긴팔 원숭이로 분류하도록 조작하는 것이 표적 공격의 예시이다.

②비표적 공격(Untargeted Attack, 비타겟 공격)은 입력 데이터를 어떤 잘못된 레이블로 분류하도록 만드는 공격 방식이다.

  ㉡ 판다로 레이블된 이미지를 판다가 아닌 다른 어떤 동물로  분류되게 조작하는 것이 비표적 공격의 예시이다.

③ 표적 공격을 수식으로 작성하면 다음과 같다.

Input:

- 신경망 \(f: X \rightarrow C\)
- 입력 데이터 \(x \in X\)
- 목표 레이블 \(t \in C\), such that \(f(x)\neq t\)

 

Output: 

- 입력 데이터 \(x\)에 변조 \(\eta\)를 수행해   \(f(x+\eta = t)\) 가 되도록 한다.

 

  ㉠ 이 수식은 원본 이미지 \(x\)에 어떤 변조 \(\eta\)를 가하여, 신경망 \(f\)가 그 결과를 목표 레이블 \(t\)로 잘못 분류(mis-classify)되도록 만드는 과정을 나타낸다.

④ 비표적 공격을 수식으로 작성하면 다음과 같다.

Input:

- 신경망 \(f: X \rightarrow C\)
- 입력 데이터 \(x \in X\)

 

Output: 

- 입력 데이터 \(x\)에 변조 \(\eta\)를 수행해   \(f(x+\eta \neq t)\) 가 되도록 한다.

  ㉠ 이 수식은 입력 데이터 \(x\)에 변조 \(\eta\)를 가함으로써, 신경망 \(f\)가 그 결과를 원래의 타겟 라이블 \(t\)와 다르게 분류하도록 만드는 과정을 나타낸다.

    ⓐ 이 때 중요한 점은 비표적 공격의 목표는 정해진 특정 레이블로의 오분류가 아니라 단순히 원래 레이블과 다른 어떠한 레이블로 분류되게 하는 것이다.