All about Machine-Learning/Reliable Interpretable AI

적대적 공격(Adversarial Attacks)

※ 이 글은 chatGPT를 기반으로 작성한 글입니다.

※ SRILAB의 Reliable and Interpretable Artificial Intelligence 강의를 기반으로 작성한 글입니다.

 

Reliable and Interpretable Artificial Intelligence

Graduate course involving the analysis, robustness and visualization of neural networks, as well as probabilistic programming.

www.sri.inf.ethz.ch

① 적대적 예시(Adversarial examples)란 머신 러닝 모델이 부정확한 예측이나 분류를 수행하도록 의도적으로 조작이 가해진 입력값(inputs)을 의미한다.

  ㉠ 적대적 예시는 사람에게는 차이가 없을 정도로 혹은 판단을 내리는데 영향을 주지 않지만, 원본 데이터를 미묘하게 수정하는 것으로 모델이 부정확한 결론을 유발할 수 있다.

  ㉡ 다음은 적대적 예시 중 일부이다.

"판다" 사진에 노이즈를 가한 결과 "긴팔 원숭이" 사진으로 잘못 분류하는 것을 볼 수 있다.
"STOP" 이라고 적힌 교통 표지판에 노이즈를 가하자 시속 45 마일 표지판으로 잘못 분류하는 것을 볼 수 있다.
도로 사진에 검은색 노이즈를 가하자  도로로 잘못 분류하는 것을 볼 수 있다.

 

  ㉢  이미지 처리뿐만 음성 처리나 텍스트 분류에서도 적대적 예시를 관찰할 수 있다.

"Stop"이라고 말하는 음성 신호의 크기를 110dB를 낮춘 결과 "Go"로 잘못 분류하는 것을 볼 수 있다.

 

② 강건성(Robustness)는 머신 러닝 모델이 다양한 조건 하에서도 성능과 정확도를 유지하는 능력을 말한다.

  ㉠ 잡음이나 도전적인 입력 데이터가 주어졌을 때도 이를 유지하는 능력을 의미하며 일반화할 수 있는지를 나타내는 특성이다.

  ㉡ 위와 같은 적대적 예시와 같은 사례를 통해 훈련에 사용된 데이터뿐만 아니라 새롭고 보지 못한 데이터에서도 잘 수행되어야 한다는 것을 의미한다.