전체 글

(163)
pandas - .csv 파일 읽기 ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. ① pandas 라이브러리를 이용해서 .csv 파일을 파이썬에서 열 수 있다. ② 함수 read_csv()로 file.csv를 여는 일반적인 방법이다. ㉠ file.csv 파일을 열어서 pandas 데이터 프레임 형태로 저장한다. HTML 삽입 미리보기할 수 없는 소스 ③ csv 파일이 열 이름(column name)을 갖고 있지 않다면, 매개변수 header에 None을 할당하면 된다. HTML 삽입 미리보기할 수 없는 소스 ④ csv 파일에서 쉼표가 아닌 다른 구분 기호를 사용할 경우 매개변수 delimiter를 이용해 구분 기호를 새로 지정할 수 있다. ㉠ 세미 콜론이 구분 기호일 때는 다음과 같이 작성할 수 있다. HTML 삽입 미리보기할 수..
손실 함수(Loss function) ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. ① 손실 함수는 기계 학습 모델이 입력 데이터와 해당 출력 레이블 사이의 실제 관계를 얼마나 유사하게 근사할 수 있는지를 측정하는 수학적 도구이다. ② ③
모델의 복잡도 ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. ① 모델의 복잡도는 모델이 학습할 수 있는 함수의 종류나 개수, 모델의 구조, 하이퍼 파라미터 등과 관련된 것을 의미한다. ㉠ 모델이 더 복잡한 함수를 학습할 수 있는 경우, 모델의 복잡도가 더 커진다. ② 예를 들어 1750억 개의 매개 변수를 갖고 있는 GPT-3 (Generative Pre-trained Transformer 3) 모델의 경우, 45 테라 바이트(Tbyte)가 넘는 텍스트 데이터 세트에 대한 교육을 받았다. ㉠ GPT-3은 지금까지 만들어진 언어 모델 중 가장 크고 복잡한 모델 중 하나이다. ㉡ 15 억개의 매개 변수를 가진 이전의 GPT-2보다 훨씬 많은 매개 변수를 가지고 있다. ㉢ GPT-3의 복잡성은 언어 번역, 요약, ..
전처리(Preprocessing) ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. ① 전처리(preprocessing)은 데이터 분석 및 기계 학습 모델링을 수행하기 전에 데이터를 정제하고 준비하는 과정이다. ② 전처리를 하는 목적은 크게 두 가지가 있다. ㉠ 노이즈를 제거하고, 누락되거나 부정확한 데이터를 처리하기 위해서이다. ㉡ 데이터 형식을 표준화하고, 피쳐 추출 및 선택을 위해 데이터를 준비하기 위해서이다. ③ 전처리의 과정은 몇 가지 단계를 거친다. ㉠ 데이터 수집(data collection) : 분석을 위한 데이터를 수집한다. ㉡ 데이터 정제(data cleaning) : 누락되거나 부적확한 값들과 이상 및 예외치를 처리한다. ⓐ 결측치 처리(missing values) : 데이터에서 결측치를 찾아서 처리한다. 결측치..
과적합(Overfitting) ※ 이 글은 chatGPT를 기반으로 작성한 글입니다. ① 과적합(overfitting)은 기계 학습(machine learning) 모델이 훈련 데이터에서는 잘 수행되지만 학습되지 않은 새로운 데이터에서는 잘 수행되지 않을 때 발생하는 현상이다. ㉠ 과적합으로 잘 알려진 예시가 강아지 사진을 학습 시켰는데 모델이 과적합되어서 머핀과 강아지를 구분하지 못하는 사례가 있다.(출처 : @teenybiscuit) HTML 삽입 미리보기할 수 없는 소스 ㉡ 모델이 패턴을 학습하고 그 결과로 새로운 데이터를 일반화시킨 것이 아니라 그저 훈련 데이터를 기억한 셈이다. ② 과적합 현상이 발생하는 주 원인은 모델이 지나치게 복잡하게 설계되어 높은 복잡성을 지녔기 때문이다. ㉠ 모델이 너무 복잡하면 학습 데이터 내 노이..
6. Linux - 스크립트 및 자동화 ※ 이 글은 chatGPT를 기반으로 작성한 글입니다.
5. Linux - 패키지 관리 및 소프트웨어 설치 ※ 이 글은 chatGPT를 기반으로 작성한 글입니다.
4. Linux - 리눅스의 편집기를 이용한 텍스트 파일 작업 ※ 이 글은 chatGPT를 기반으로 작성한 글입니다.