All about Machine-Learning/기본

BERT(Bidirectional Encoder Representations from Transformers)

※ 이 글은 chatGPT를 기반으로 작성한 글입니다.

 

① BERT는 자연어 처리(NLP) 분야에서 혁신적인 모델이며 다음과 같은 특징들로 구성되어 있다.

  ㉠ 양방향성(Bidirectional): 기존의 모델들이 단방향적인 컨텍스트를 사용했던 것과 달리, BERT는 문장의 양방향 컨텍스트를 동시에 고려한다.

    ⓐ 이를 통해 단어가 문장에서 어떻게 사용되고 있는 지 더 정확히 이해할 수 있다.  

  ㉡ 트랜스포머 아키텍처: BERT는 트랜스포머 모델을 기반으로 하며, 어텐션 메커니즘을 사용해 입력 데이터의 중요한 부분에 집중할 수 있게 해준다.

  ㉢ BERT는 사전 훈련(pre-training)과 미세 조정(fine-tuning)을 통해 특정 작업에 최적화된 지식을 얻는다.

② BERT는 MLM(Masked Language Model)을 통해 사전 훈련된다. 이 과정에서 일부 단어가 임의로 가려지고(Mask), 모델은 이 가려진 단어를 예측하도록 훈련된다.

  ㉠ MLM은 BERT와 같은 언어 모델을 사전 훈련하는 데 사용되는 기법으로 모델이 주어진 문맥 안에서 단어의 의미를 더 잘 이해하도록 돕는다.

  ㉡ 마스킹 과정: MLM에서는 훈련 데이터의 문장에서 일부 단어를 무작위로 선택하고, 이 단어들을 특별한 [MASK] 토큰으로 대체한다.

    ⓐ 예를 들어 "The cat sat on the mat"라는 문장에서  "cat" 과 "mat"을 마스킹하면 "The [MASK] sat on the [MASK]"가 된다.

  ㉢ 모델은 마스킹된 단어를 예측하기 위해 주변 단어의 문맥을 사용한다. 모델은 전체 문장을 입력으로 받고, 각 [MASK] 토큰의 위치에 가장 적합한 단어를 예측하려고 시도한다.

  ㉣ MLM의 핵심은 모델의 단어의 양방향 문맥을 고려하기 때문에 더 정확한 단어 예측을 할 수 있도록 해준다.

  ㉤  MLM을 통한 사전 훈련의 목적은 모델이 언어의 다양한 패턴과 구조를 학습하는 것이다.

③ BERT는 두 개의 문장이 서로 연속적인지를 예측하는 NSP(Next Sentence Prediction) 작업 또한 수행한다.

  ㉠ NSP의 목적은 모델이 두 문장 간의 관계를 이해하도록 하는 것이다.

  ㉡ NSP는 두 개의 문장 쌍을 사용한다. 이 문장들은 실제로 연속하는 문장일 수도 있고, 무작위로 선택된 관련 없는 문장일 수도 있다.

    ⓐ 예를 들어 "I am eating an apple"이라는 문장 뒤에 "It is very tasty"라는 문장이 올 경우 이 두 문장은 연속적인 관계에 있다.

    ⓑ 모델은 첫 번째 문장이 주어졌을 때, 두 번째 문장이 첫 문장과 직접적인 연속인지 아닌지를 예측한다. 이는 모델이 두 문장 간의 관계를 이해하는 데 도움을 준다.

④ BERT는 RoBERTa, ALBERT, DistilBERT 등 원래 BERT 모델을 개선하거나 특정 어플리케이션에 적합하도록 파생되었다.

⑤ BERT는 질의 응답 시스템, 감성 분석, 문서 요약, 기계 번역, 개체명 인식에 유용하다.

'All about Machine-Learning > 기본' 카테고리의 다른 글

순환 신경망(RNN, Recurrent Neural Netswork)  (0) 2024.01.06
손실 함수(Loss function)  (0) 2023.03.05
모델의 복잡도  (0) 2023.03.05
전처리(Preprocessing)  (0) 2023.03.05
과적합(Overfitting)  (0) 2023.03.05