※ 이 글은 chatGPT를 기반으로 작성한 글입니다.
① 모델의 복잡도는 모델이 학습할 수 있는 함수의 종류나 개수, 모델의 구조, 하이퍼 파라미터 등과 관련된 것을 의미한다.
㉠ 모델이 더 복잡한 함수를 학습할 수 있는 경우, 모델의 복잡도가 더 커진다.
② 예를 들어 1750억 개의 매개 변수를 갖고 있는 GPT-3 (Generative Pre-trained Transformer 3) 모델의 경우, 45 테라 바이트(Tbyte)가 넘는 텍스트 데이터 세트에 대한 교육을 받았다.
㉠ GPT-3은 지금까지 만들어진 언어 모델 중 가장 크고 복잡한 모델 중 하나이다.
㉡ 15 억개의 매개 변수를 가진 이전의 GPT-2보다 훨씬 많은 매개 변수를 가지고 있다.
㉢ GPT-3의 복잡성은 언어 번역, 요약, 질문 답변 등 광범위한 자연어 처리 작업을 수행할 수 있게 해준다.
㉣ GPT-3 같은 고성능의 모델을 교육 및 실행하기 위해는 요구되는 계산 리소스가 높고, 배포 비용이 비싸다.
③ 복잡성이 높다고 해서 성능이나 유용성이 향상되는 것은 아니다.
㉠ 지나치게 큰 모델은 높은 계산량과 리소스 요구 사항으로 인해 실용성이 떨어질 수 있다.
㉡ 모델의 복잡도는 편향, 해석능력, 공정성 등의 이슈에 영향을 줄 수 있다.
㉢ 높은 복잡성은 과적합을 불러올 수 있다.
'All about Machine-Learning > 기본' 카테고리의 다른 글
순환 신경망(RNN, Recurrent Neural Netswork) (0) | 2024.01.06 |
---|---|
BERT(Bidirectional Encoder Representations from Transformers) (0) | 2023.12.21 |
손실 함수(Loss function) (0) | 2023.03.05 |
전처리(Preprocessing) (0) | 2023.03.05 |
과적합(Overfitting) (0) | 2023.03.05 |