All about Machine-Learning/기본

모델의 복잡도

※ 이 글은 chatGPT를 기반으로 작성한 글입니다.

① 모델의 복잡도는 모델이 학습할 수 있는 함수의 종류나 개수, 모델의 구조, 하이퍼 파라미터 등과 관련된 것을 의미한다.

  ㉠ 모델이 더 복잡한 함수를 학습할 수 있는 경우, 모델의 복잡도가 더 커진다.

② 예를 들어  1750억 개의 매개 변수를 갖고 있는 GPT-3 (Generative Pre-trained Transformer 3) 모델의 경우, 45 테라 바이트(Tbyte)가 넘는 텍스트 데이터 세트에 대한 교육을 받았다.

  ㉠ GPT-3은 지금까지 만들어진 언어 모델 중 가장 크고 복잡한 모델 중 하나이다.

  ㉡ 15 억개의 매개 변수를 가진 이전의 GPT-2보다 훨씬 많은 매개 변수를 가지고 있다.

  ㉢ GPT-3의 복잡성은 언어 번역, 요약, 질문 답변 등 광범위한 자연어 처리 작업을 수행할 수 있게 해준다.

  ㉣ GPT-3 같은 고성능의 모델을 교육 및 실행하기 위해는 요구되는 계산 리소스가 높고, 배포 비용이 비싸다.

③ 복잡성이 높다고 해서 성능이나 유용성이 향상되는 것은 아니다.

  ㉠ 지나치게 큰 모델은 높은 계산량과 리소스 요구 사항으로 인해 실용성이 떨어질 수 있다.

  ㉡ 모델의 복잡도는 편향, 해석능력, 공정성 등의 이슈에 영향을 줄 수 있다.

  ㉢ 높은 복잡성은 과적합을 불러올 수 있다.

 

과적합(Overfitting)

※ 이 글은 chatGPT를 기반으로 작성한 글입니다. ① 과적합(overfitting)은 기계 학습(machine learning) 모델이 훈련 데이터에서는 잘 수행되지만 학습되지 않은 새로운 데이터에서는 잘 수행되지 않을

hemahero.tistory.com