All about Machine-Learning/기본

(6)
순환 신경망(RNN, Recurrent Neural Netswork) ① 순환신경망(Recurrent Neural Network)는 시퀀스 데이터(sequence data)를 처리하기 위해 설계된 신경망이다. ㉠ 시퀀스 데이터는 시간의 흐름에 따라 순서대로 나열된 데이터를 의미한다. ⓐ 시퀀스 데이터의 예시로는 문장(단어들의 시퀀스), 주식 시장 데이터(시간에 따른 주가 변화), 음성 신호(연속적인 음향 데이터) 등이 있다. ㉡ 순환 신경망은 시퀀스의 각 요소가 이전 요소와 어떻게 연관되어 있는지 학슴함으로써 시퀀스 데이터에 숨겨진 패턴과 관계를 찾을 수 있다. ② 순환신경망은 이전 출력이 입력으로 사용될 수 있도록 하는 구조를 가진 신경망이다. ③ 순환 신경망은 각 시퀀스 요소를 처리하는 셀(cell)이라는 구조를 사용한다. ㉠ 셀은 현재 입력과 이전 셀의 출력(이전 시..
BERT(Bidirectional Encoder Representations from Transformers) ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. ① BERT는 자연어 처리(NLP) 분야에서 혁신적인 모델이며 다음과 같은 특징들로 구성되어 있다. ㉠ 양방향성(Bidirectional): 기존의 모델들이 단방향적인 컨텍스트를 사용했던 것과 달리, BERT는 문장의 양방향 컨텍스트를 동시에 고려한다. ⓐ 이를 통해 단어가 문장에서 어떻게 사용되고 있는 지 더 정확히 이해할 수 있다. ㉡ 트랜스포머 아키텍처: BERT는 트랜스포머 모델을 기반으로 하며, 어텐션 메커니즘을 사용해 입력 데이터의 중요한 부분에 집중할 수 있게 해준다. ㉢ BERT는 사전 훈련(pre-training)과 미세 조정(fine-tuning)을 통해 특정 작업에 최적화된 지식을 얻는다. ② BERT는 MLM(Masked Lan..
손실 함수(Loss function) ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. ① 손실 함수는 기계 학습 모델이 입력 데이터와 해당 출력 레이블 사이의 실제 관계를 얼마나 유사하게 근사할 수 있는지를 측정하는 수학적 도구이다. ② ③
모델의 복잡도 ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. ① 모델의 복잡도는 모델이 학습할 수 있는 함수의 종류나 개수, 모델의 구조, 하이퍼 파라미터 등과 관련된 것을 의미한다. ㉠ 모델이 더 복잡한 함수를 학습할 수 있는 경우, 모델의 복잡도가 더 커진다. ② 예를 들어 1750억 개의 매개 변수를 갖고 있는 GPT-3 (Generative Pre-trained Transformer 3) 모델의 경우, 45 테라 바이트(Tbyte)가 넘는 텍스트 데이터 세트에 대한 교육을 받았다. ㉠ GPT-3은 지금까지 만들어진 언어 모델 중 가장 크고 복잡한 모델 중 하나이다. ㉡ 15 억개의 매개 변수를 가진 이전의 GPT-2보다 훨씬 많은 매개 변수를 가지고 있다. ㉢ GPT-3의 복잡성은 언어 번역, 요약, ..
전처리(Preprocessing) ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. ① 전처리(preprocessing)은 데이터 분석 및 기계 학습 모델링을 수행하기 전에 데이터를 정제하고 준비하는 과정이다. ② 전처리를 하는 목적은 크게 두 가지가 있다. ㉠ 노이즈를 제거하고, 누락되거나 부정확한 데이터를 처리하기 위해서이다. ㉡ 데이터 형식을 표준화하고, 피쳐 추출 및 선택을 위해 데이터를 준비하기 위해서이다. ③ 전처리의 과정은 몇 가지 단계를 거친다. ㉠ 데이터 수집(data collection) : 분석을 위한 데이터를 수집한다. ㉡ 데이터 정제(data cleaning) : 누락되거나 부적확한 값들과 이상 및 예외치를 처리한다. ⓐ 결측치 처리(missing values) : 데이터에서 결측치를 찾아서 처리한다. 결측치..
과적합(Overfitting) ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. ① 과적합(overfitting)은 기계 학습(machine learning) 모델이 훈련 데이터에서는 잘 수행되지만 학습되지 않은 새로운 데이터에서는 잘 수행되지 않을 때 발생하는 현상이다. ㉠ 과적합으로 잘 알려진 예시가 강아지 사진을 학습 시켰는데 모델이 과적합되어서 머핀과 강아지를 구분하지 못하는 사례가 있다.(출처 : @teenybiscuit) HTML 삽입 미리보기할 수 없는 소스 ㉡ 모델이 패턴을 학습하고 그 결과로 새로운 데이터를 일반화시킨 것이 아니라 그저 훈련 데이터를 기억한 셈이다. ② 과적합 현상이 발생하는 주 원인은 모델이 지나치게 복잡하게 설계되어 높은 복잡성을 지녔기 때문이다. ㉠ 모델이 너무 복잡하면 학습 데이터 내 노이..