모델의 복잡도

※ 이 글은 chatGPT를 기반으로 작성한 글입니다.

① 모델의 복잡도는 모델이 학습할 수 있는 함수의 종류나 개수, 모델의 구조, 하이퍼 파라미터 등과 관련된 것을 의미한다.

㉠ 모델이 더 복잡한 함수를 학습할 수 있는 경우, 모델의 복잡도가 더 커진다.

② 예를 들어 1750억 개의 매개 변수를 갖고 있는 GPT-3 (Generative Pre-trained Transformer 3) 모델의 경우, 45 테라 바이트(Tbyte)가 넘는 텍스트 데이터 세트에 대한 교육을 받았다.

㉠ GPT-3은 지금까지 만들어진 언어 모델 중 가장 크고 복잡한 모델 중 하나이다.

㉡ 15 억개의 매개 변수를 가진 이전의 GPT-2보다 훨씬 많은 매개 변수를 가지고 있다.

㉢ GPT-3의 복잡성은 언어 번역, 요약, 질문 답변 등 광범위한 자연어 처리 작업을 수행할 수 있게 해준다.

㉣ GPT-3 같은 고성능의 모델을 교육 및 실행하기 위해는 요구되는 계산 리소스가 높고, 배포 비용이 비싸다.

③ 복잡성이 높다고 해서 성능이나 유용성이 향상되는 것은 아니다.

㉠ 지나치게 큰 모델은 높은 계산량과 리소스 요구 사항으로 인해 실용성이 떨어질 수 있다.

㉡ 모델의 복잡도는 편향, 해석능력, 공정성 등의 이슈에 영향을 줄 수 있다.

㉢ 높은 복잡성은 과적합을 불러올 수 있다.

과적합(Overfitting)

※ 이 글은 chatGPT를 기반으로 작성한 글입니다. ① 과적합(overfitting)은 기계 학습(machine learning) 모델이 훈련 데이터에서는 잘 수행되지만 학습되지 않은 새로운 데이터에서는 잘 수행되지 않을

hemahero.tistory.com

순환 신경망(RNN, Recurrent Neural Netswork) (0)	2024.01.06
BERT(Bidirectional Encoder Representations from Transformers) (0)	2023.12.21
손실 함수(Loss function) (0)	2023.03.05
전처리(Preprocessing) (0)	2023.03.05
과적합(Overfitting) (0)	2023.03.05

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

취미용 블로그