All about Machine-Learning

(16)
트랜스포머 모델 구현 ※ 이 글은 chatGPT를 기반으로 작성한 글입니다.
어텐션 메커니즘과 트랜스포머 모델 ※ 이 글은 chatGPT를 기반으로 작성한 글입니다.
어텐션 메커니즘(Attention Mechanism)의 원리 ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. 어텐션 메커니즘 ① 어텐션 메커니즘(attention mechanism)은 입력 시퀀스의 각 단어의 출력 시퀀스의 각 단어에 얼마나 연관이 있는지 계산하는 방법이다. ② 주로 Seq2Seq 모델에서 사용되며, 입력 시퀀스에서 중요한 부분에 집중하여 모델이 더 효과적으로 정보를 처리하도록 돕는다. Seq2Seq 모델의 이해 ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. Seq2Seq 모델 ① Seq2Seq(Sequence-to-sequence) 모델은 주로 자연어 처리 분야에서 사용되는 딥 러닝 아키텍처다. ㉠ 이 모델은 한 시퀀스를 다른 시퀀스로 hemahero.tistory.com ㉠ 이는 인간이 정보를 처리할 때 특정 부분에 집중하는 방..
Seq2Seq 모델의 이해 ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. Seq2Seq 모델 ① Seq2Seq(Sequence-to-sequence) 모델은 주로 자연어 처리 분야에서 사용되는 딥 러닝 아키텍처다. ㉠ 이 모델은 한 시퀀스를 다른 시퀀스로 변환하는 데 사용된다. ② Seq2Seq 모델은 크게 두 부분, 인코더(encoder)와 디코더(decoder)로 구성된다. 인코더 ㉠ 일반적인 인코더의 역할은 입력 시퀀스(문장)의 각 요소(단어)를 벡터들로 변환하는 것이다. ㉡ 입력 데이터를 처리하는 단계는 크게 세 부분으로 나뉘며, ⓐ 토큰화(tokenization), ⓑ 벡터 변환(vectorization), ⓒ 컨텍스트 벡터 생성(context vector generation)으로 구분된다. ⓐ 토큰화(Token..
순환 신경망(RNN, Recurrent Neural Netswork) ① 순환신경망(Recurrent Neural Network)는 시퀀스 데이터(sequence data)를 처리하기 위해 설계된 신경망이다. ㉠ 시퀀스 데이터는 시간의 흐름에 따라 순서대로 나열된 데이터를 의미한다. ⓐ 시퀀스 데이터의 예시로는 문장(단어들의 시퀀스), 주식 시장 데이터(시간에 따른 주가 변화), 음성 신호(연속적인 음향 데이터) 등이 있다. ㉡ 순환 신경망은 시퀀스의 각 요소가 이전 요소와 어떻게 연관되어 있는지 학슴함으로써 시퀀스 데이터에 숨겨진 패턴과 관계를 찾을 수 있다. ② 순환신경망은 이전 출력이 입력으로 사용될 수 있도록 하는 구조를 가진 신경망이다. ③ 순환 신경망은 각 시퀀스 요소를 처리하는 셀(cell)이라는 구조를 사용한다. ㉠ 셀은 현재 입력과 이전 셀의 출력(이전 시..
워드 벡터(Word Vector) -CBOW, Skip-gram ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. ① 워드 벡터(word vector)는 단어들을 벡터 공간에 표현함으로써 수치화된 벡터로 변환해 컴퓨터가 단어의 의미를 이해하고 처리할 수 있도록 도와준다. ㉠ 예를 들어 "사과", "바나나", "토마토", "트럭"이라는 네 개의 단어들을 수학적인 벡터로 나타내는 것이다. ② 워드 벡터의 대표적인 임베딩 기법으로 Word2Vec과 GloVe가 존재한다. ㉠ Word2Vec에는 Continuous Bag of Word(CBOW)와 Skip Gram이라는 두 가지 기본 모델이 있다. ⓐ CBOW는 주변 단어들을 통해 중심 단어를 예측하는 방식이다. ⓑ Skip Gram은 중심 단어를 통해 주변 단어를 예측하는 방식이다. ② CBOW 모델을 훈련시키는 코..
Targeted vs. Untargeted Attacks ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. ※ SRILAB의 Reliable and Interpretable Artificial Intelligence 강의를 기반으로 작성한 글입니다. Reliable and Interpretable Artificial Intelligence Graduate course involving the analysis, robustness and visualization of neural networks, as well as probabilistic programming. www.sri.inf.ethz.ch ① 표적 공격(Targeted Attack, 타겟 공격)은 입력 데이터를 의도적으로 특정 레이블로 잘못 분류하도록 만드는 공격 방식이다. ㉠ 판다로 분류된 이미..
적대적 공격(Adversarial Attacks) ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. ※ SRILAB의 Reliable and Interpretable Artificial Intelligence 강의를 기반으로 작성한 글입니다. Reliable and Interpretable Artificial Intelligence Graduate course involving the analysis, robustness and visualization of neural networks, as well as probabilistic programming. www.sri.inf.ethz.ch ① 적대적 예시(Adversarial examples)란 머신 러닝 모델이 부정확한 예측이나 분류를 수행하도록 의도적으로 조작이 가해진 입력값(inputs)을 ..