※ 이 글은 chatGPT를 기반으로 작성한 글입니다.
① 전처리(preprocessing)은 데이터 분석 및 기계 학습 모델링을 수행하기 전에 데이터를 정제하고 준비하는 과정이다.
② 전처리를 하는 목적은 크게 두 가지가 있다.
㉠ 노이즈를 제거하고, 누락되거나 부정확한 데이터를 처리하기 위해서이다.
㉡ 데이터 형식을 표준화하고, 피쳐 추출 및 선택을 위해 데이터를 준비하기 위해서이다.
③ 전처리의 과정은 몇 가지 단계를 거친다.
㉠ 데이터 수집(data collection) : 분석을 위한 데이터를 수집한다.
㉡ 데이터 정제(data cleaning) : 누락되거나 부적확한 값들과 이상 및 예외치를 처리한다.
ⓐ 결측치 처리(missing values) : 데이터에서 결측치를 찾아서 처리한다. 결측치는 적절한 값으로 대체하거나, 삭제하는 방법으로 처리한다.
ⓑ 중복값 처리(duplicates) : 데이터에서 중복된 값들을 찾아서 처리한다. 중복된 값은 분석 결과에 영향을 미칠 수 있다.
ⓒ 이상치 처리(outliers) : 데이터에서 이상치를 찾아서 처리한다. 이상치는 분석 결과를 왜곡시킬 수 있다. 이상치를 찾아서 삭제하거나, 적절한 값으로 대체하는 방법으로 처리할 수 있다.
ⓓ 데이터 형식 변환 : 데이터 형식을 표준에 맞게 적절히 변환하는 것을 말한다. 날짜 형식을 표준화하거나 숫자 데이터를 범주형 데이터로 변환할 수 있다.
ⓔ 불필요한 값 제거 : 데이터에서 불필요한 값들을 제거한다. 이는 분석에 사용하지 않는 데이터나, 중복된 값을 제거하는 것이다.
㉢ 데이터 변환(data transformation) : 데이터의 형식을 표준화하거나, 인코딩을 변경한다. 또한, 피쳐 스케일링이나 피쳐 인코딩 등의 작업을 수행할 수 있다.
㉣ 피쳐 추출(feature extraction) : 데이터에서 특징을 추출하는 작업을 수행한다.
ⓐ 예를 들어 텍스트 데이터에서 단어 토큰을 추출하거나, 이미지 데이터에서 피쳐 추출을 수행하는 것이 있다.
㉤ 데이터 분리(data splitting) : 전처리된 데이터를 학습 데이터와 테스트 데이터로 분할한다.
㉥ 데이터 정규화(data normalization) : 데이터를 정규화하여 분석 및 모델링에 적합한 형태로 만든다.
㉦ 피쳐 선택(feature selection) : 분석 및 모델링이 필요한 피쳐를 선택한다.
㉧ 데이터 변환 : 최정적으로 데이터를 분석 및 모델링에 적합한 형태로 변환한다.
'All about Machine-Learning > 기본' 카테고리의 다른 글
순환 신경망(RNN, Recurrent Neural Netswork) (0) | 2024.01.06 |
---|---|
BERT(Bidirectional Encoder Representations from Transformers) (0) | 2023.12.21 |
손실 함수(Loss function) (0) | 2023.03.05 |
모델의 복잡도 (0) | 2023.03.05 |
과적합(Overfitting) (0) | 2023.03.05 |