※ 이 글은 chatGPT를 기반으로 작성한 글입니다.
① BERT는 자연어 처리(NLP) 분야에서 혁신적인 모델이며 다음과 같은 특징들로 구성되어 있다.
㉠ 양방향성(Bidirectional): 기존의 모델들이 단방향적인 컨텍스트를 사용했던 것과 달리, BERT는 문장의 양방향 컨텍스트를 동시에 고려한다.
ⓐ 이를 통해 단어가 문장에서 어떻게 사용되고 있는 지 더 정확히 이해할 수 있다.
㉡ 트랜스포머 아키텍처: BERT는 트랜스포머 모델을 기반으로 하며, 어텐션 메커니즘을 사용해 입력 데이터의 중요한 부분에 집중할 수 있게 해준다.
㉢ BERT는 사전 훈련(pre-training)과 미세 조정(fine-tuning)을 통해 특정 작업에 최적화된 지식을 얻는다.
② BERT는 MLM(Masked Language Model)을 통해 사전 훈련된다. 이 과정에서 일부 단어가 임의로 가려지고(Mask), 모델은 이 가려진 단어를 예측하도록 훈련된다.
㉠ MLM은 BERT와 같은 언어 모델을 사전 훈련하는 데 사용되는 기법으로 모델이 주어진 문맥 안에서 단어의 의미를 더 잘 이해하도록 돕는다.
㉡ 마스킹 과정: MLM에서는 훈련 데이터의 문장에서 일부 단어를 무작위로 선택하고, 이 단어들을 특별한 [MASK] 토큰으로 대체한다.
ⓐ 예를 들어 "The cat sat on the mat"라는 문장에서 "cat" 과 "mat"을 마스킹하면 "The [MASK] sat on the [MASK]"가 된다.
㉢ 모델은 마스킹된 단어를 예측하기 위해 주변 단어의 문맥을 사용한다. 모델은 전체 문장을 입력으로 받고, 각 [MASK] 토큰의 위치에 가장 적합한 단어를 예측하려고 시도한다.
㉣ MLM의 핵심은 모델의 단어의 양방향 문맥을 고려하기 때문에 더 정확한 단어 예측을 할 수 있도록 해준다.
㉤ MLM을 통한 사전 훈련의 목적은 모델이 언어의 다양한 패턴과 구조를 학습하는 것이다.
③ BERT는 두 개의 문장이 서로 연속적인지를 예측하는 NSP(Next Sentence Prediction) 작업 또한 수행한다.
㉠ NSP의 목적은 모델이 두 문장 간의 관계를 이해하도록 하는 것이다.
㉡ NSP는 두 개의 문장 쌍을 사용한다. 이 문장들은 실제로 연속하는 문장일 수도 있고, 무작위로 선택된 관련 없는 문장일 수도 있다.
ⓐ 예를 들어 "I am eating an apple"이라는 문장 뒤에 "It is very tasty"라는 문장이 올 경우 이 두 문장은 연속적인 관계에 있다.
ⓑ 모델은 첫 번째 문장이 주어졌을 때, 두 번째 문장이 첫 문장과 직접적인 연속인지 아닌지를 예측한다. 이는 모델이 두 문장 간의 관계를 이해하는 데 도움을 준다.
④ BERT는 RoBERTa, ALBERT, DistilBERT 등 원래 BERT 모델을 개선하거나 특정 어플리케이션에 적합하도록 파생되었다.
⑤ BERT는 질의 응답 시스템, 감성 분석, 문서 요약, 기계 번역, 개체명 인식에 유용하다.
'All about Machine-Learning > 기본' 카테고리의 다른 글
순환 신경망(RNN, Recurrent Neural Netswork) (0) | 2024.01.06 |
---|---|
손실 함수(Loss function) (0) | 2023.03.05 |
모델의 복잡도 (0) | 2023.03.05 |
전처리(Preprocessing) (0) | 2023.03.05 |
과적합(Overfitting) (0) | 2023.03.05 |