BERT(Bidirectional Encoder Representations from Transformers)

※ 이 글은 chatGPT를 기반으로 작성한 글입니다.

① BERT는 자연어 처리(NLP) 분야에서 혁신적인 모델이며 다음과 같은 특징들로 구성되어 있다.

㉠ 양방향성(Bidirectional): 기존의 모델들이 단방향적인 컨텍스트를 사용했던 것과 달리, BERT는 문장의 양방향 컨텍스트를 동시에 고려한다.

ⓐ 이를 통해 단어가 문장에서 어떻게 사용되고 있는 지 더 정확히 이해할 수 있다.

㉡ 트랜스포머 아키텍처: BERT는 트랜스포머 모델을 기반으로 하며, 어텐션 메커니즘을 사용해 입력 데이터의 중요한 부분에 집중할 수 있게 해준다.

㉢ BERT는 사전 훈련(pre-training)과 미세 조정(fine-tuning)을 통해 특정 작업에 최적화된 지식을 얻는다.

② BERT는 MLM(Masked Language Model)을 통해 사전 훈련된다. 이 과정에서 일부 단어가 임의로 가려지고(Mask), 모델은 이 가려진 단어를 예측하도록 훈련된다.

㉠ MLM은 BERT와 같은 언어 모델을 사전 훈련하는 데 사용되는 기법으로 모델이 주어진 문맥 안에서 단어의 의미를 더 잘 이해하도록 돕는다.

㉡ 마스킹 과정: MLM에서는 훈련 데이터의 문장에서 일부 단어를 무작위로 선택하고, 이 단어들을 특별한 [MASK] 토큰으로 대체한다.

ⓐ 예를 들어 "The cat sat on the mat"라는 문장에서 "cat" 과 "mat"을 마스킹하면 "The [MASK] sat on the [MASK]"가 된다.

㉢ 모델은 마스킹된 단어를 예측하기 위해 주변 단어의 문맥을 사용한다. 모델은 전체 문장을 입력으로 받고, 각 [MASK] 토큰의 위치에 가장 적합한 단어를 예측하려고 시도한다.

㉣ MLM의 핵심은 모델의 단어의 양방향 문맥을 고려하기 때문에 더 정확한 단어 예측을 할 수 있도록 해준다.

㉤ MLM을 통한 사전 훈련의 목적은 모델이 언어의 다양한 패턴과 구조를 학습하는 것이다.

③ BERT는 두 개의 문장이 서로 연속적인지를 예측하는 NSP(Next Sentence Prediction) 작업 또한 수행한다.

㉠ NSP의 목적은 모델이 두 문장 간의 관계를 이해하도록 하는 것이다.

㉡ NSP는 두 개의 문장 쌍을 사용한다. 이 문장들은 실제로 연속하는 문장일 수도 있고, 무작위로 선택된 관련 없는 문장일 수도 있다.

ⓐ 예를 들어 "I am eating an apple"이라는 문장 뒤에 "It is very tasty"라는 문장이 올 경우 이 두 문장은 연속적인 관계에 있다.

ⓑ 모델은 첫 번째 문장이 주어졌을 때, 두 번째 문장이 첫 문장과 직접적인 연속인지 아닌지를 예측한다. 이는 모델이 두 문장 간의 관계를 이해하는 데 도움을 준다.

④ BERT는 RoBERTa, ALBERT, DistilBERT 등 원래 BERT 모델을 개선하거나 특정 어플리케이션에 적합하도록 파생되었다.

⑤ BERT는 질의 응답 시스템, 감성 분석, 문서 요약, 기계 번역, 개체명 인식에 유용하다.

순환 신경망(RNN, Recurrent Neural Netswork) (0)	2024.01.06
손실 함수(Loss function) (0)	2023.03.05
모델의 복잡도 (0)	2023.03.05
전처리(Preprocessing) (0)	2023.03.05
과적합(Overfitting) (0)	2023.03.05

취미용 블로그