All about Machine-Learning

(16)
허깅 페이스(Hugging Face) ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. ① 허깅 페이스(Hugging Face)는 인공 지능 연구 및 개발에 중점을 둔 회사이며, 자연어 처리와 관련된 다양한 오픈 소스 도구와 라이브러리를 제공한다. ② 허깅 페이스는 다양한 언어 모델들을 쉽게 사용할 수 있게 해주는 트랜스포머(Transformers) 라이브러리를 제공한다. ③ 이 라이브러리를 통해 BERT, GPT, T5 등과 같은 고급 언어 모델을 활용하여 텍스트 분석, 번역, 요약 등 NLP 작업을 수행할 수 있다. ④ 허깅 페이스의 트랜스포머 라이브러리 PIP(Package Installer for Python)을 사용하여 설치할 수 있다. HTML 삽입 미리보기할 수 없는 소스 ⑤ import transformers를 사용해 트..
BERT(Bidirectional Encoder Representations from Transformers) ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. ① BERT는 자연어 처리(NLP) 분야에서 혁신적인 모델이며 다음과 같은 특징들로 구성되어 있다. ㉠ 양방향성(Bidirectional): 기존의 모델들이 단방향적인 컨텍스트를 사용했던 것과 달리, BERT는 문장의 양방향 컨텍스트를 동시에 고려한다. ⓐ 이를 통해 단어가 문장에서 어떻게 사용되고 있는 지 더 정확히 이해할 수 있다. ㉡ 트랜스포머 아키텍처: BERT는 트랜스포머 모델을 기반으로 하며, 어텐션 메커니즘을 사용해 입력 데이터의 중요한 부분에 집중할 수 있게 해준다. ㉢ BERT는 사전 훈련(pre-training)과 미세 조정(fine-tuning)을 통해 특정 작업에 최적화된 지식을 얻는다. ② BERT는 MLM(Masked Lan..
Decomposing Convolutional Neural Networks into Reusableand Replaceable Modules 리뷰 Pan, R., & Rajan, H. (2021). Decomposing Convolutional Neural Networks into Reusable and Replaceable Modules 용어 설명 1. CNNs (Convolutional Neural Networks): 이미지 인식과 프로세싱에 사용되는 주요한 심층 신경망(Deep neural network)의 종류이며, 컨볼루션 레이어(convolutional layers)를 사용하는 것이 특징이다. 2. Modularization: 하나의 모델이 단일 구조 모델(monolithic model)이라고 가정할 때 더 작은 functional modules로 분해하는 일련의 과정을 의미한다. 3. ResNet: CNN의 일종으로 잔여 신경망(res..
(Review) On Decomposing a Deep Neural Network into Modules ABSTRACT ① 딥러닝은 많은 최신 소프트웨어에 사용되고 있다. ② 일반적으로 DNN(Deep Neural Network)은 훈련 데이터를 이용해 신경망을 학습 시킨 후 예측에 사용한다. ③ 모델의 레이어를 관측할 수 있지만, 딥러닝 모델은 하나의 유기적인 요소로 다뤄진다. ④ 모델에 적용된 로직을 변경하기 위해서는 몇 가지 과정이 필요하다. ㉠ 학습 데이터의 변경 요구 : 어떤 로직을 추가/제거하기 위해서는 특정 클래스에 속한 훈련 데이터를 추가/제거해야 한다. ㉡ 모델의 재학습 요구: 모델이 변경된 학습 데이터를 다시 학습해야 하기 때문에 계산 리소스와 시간이 많이 요구된다. ⑤ 이 논문에서는 DNN 모델을 DNN 모듈로 분해하는 방법을 제안한다. ㉠ MNIST, EMNIST, FMNIST, KM..
손실 함수(Loss function) ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. ① 손실 함수는 기계 학습 모델이 입력 데이터와 해당 출력 레이블 사이의 실제 관계를 얼마나 유사하게 근사할 수 있는지를 측정하는 수학적 도구이다. ② ③
모델의 복잡도 ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. ① 모델의 복잡도는 모델이 학습할 수 있는 함수의 종류나 개수, 모델의 구조, 하이퍼 파라미터 등과 관련된 것을 의미한다. ㉠ 모델이 더 복잡한 함수를 학습할 수 있는 경우, 모델의 복잡도가 더 커진다. ② 예를 들어 1750억 개의 매개 변수를 갖고 있는 GPT-3 (Generative Pre-trained Transformer 3) 모델의 경우, 45 테라 바이트(Tbyte)가 넘는 텍스트 데이터 세트에 대한 교육을 받았다. ㉠ GPT-3은 지금까지 만들어진 언어 모델 중 가장 크고 복잡한 모델 중 하나이다. ㉡ 15 억개의 매개 변수를 가진 이전의 GPT-2보다 훨씬 많은 매개 변수를 가지고 있다. ㉢ GPT-3의 복잡성은 언어 번역, 요약, ..
전처리(Preprocessing) ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. ① 전처리(preprocessing)은 데이터 분석 및 기계 학습 모델링을 수행하기 전에 데이터를 정제하고 준비하는 과정이다. ② 전처리를 하는 목적은 크게 두 가지가 있다. ㉠ 노이즈를 제거하고, 누락되거나 부정확한 데이터를 처리하기 위해서이다. ㉡ 데이터 형식을 표준화하고, 피쳐 추출 및 선택을 위해 데이터를 준비하기 위해서이다. ③ 전처리의 과정은 몇 가지 단계를 거친다. ㉠ 데이터 수집(data collection) : 분석을 위한 데이터를 수집한다. ㉡ 데이터 정제(data cleaning) : 누락되거나 부적확한 값들과 이상 및 예외치를 처리한다. ⓐ 결측치 처리(missing values) : 데이터에서 결측치를 찾아서 처리한다. 결측치..
과적합(Overfitting) ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. ① 과적합(overfitting)은 기계 학습(machine learning) 모델이 훈련 데이터에서는 잘 수행되지만 학습되지 않은 새로운 데이터에서는 잘 수행되지 않을 때 발생하는 현상이다. ㉠ 과적합으로 잘 알려진 예시가 강아지 사진을 학습 시켰는데 모델이 과적합되어서 머핀과 강아지를 구분하지 못하는 사례가 있다.(출처 : @teenybiscuit) HTML 삽입 미리보기할 수 없는 소스 ㉡ 모델이 패턴을 학습하고 그 결과로 새로운 데이터를 일반화시킨 것이 아니라 그저 훈련 데이터를 기억한 셈이다. ② 과적합 현상이 발생하는 주 원인은 모델이 지나치게 복잡하게 설계되어 높은 복잡성을 지녔기 때문이다. ㉠ 모델이 너무 복잡하면 학습 데이터 내 노이..