전처리(Preprocessing)

※ 이 글은 chatGPT를 기반으로 작성한 글입니다.

① 전처리(preprocessing)은 데이터 분석 및 기계 학습 모델링을 수행하기 전에 데이터를 정제하고 준비하는 과정이다.

② 전처리를 하는 목적은 크게 두 가지가 있다.

㉠ 노이즈를 제거하고, 누락되거나 부정확한 데이터를 처리하기 위해서이다.

㉡ 데이터 형식을 표준화하고, 피쳐 추출 및 선택을 위해 데이터를 준비하기 위해서이다.

③ 전처리의 과정은 몇 가지 단계를 거친다.

㉠ 데이터 수집(data collection) : 분석을 위한 데이터를 수집한다.

㉡ 데이터 정제(data cleaning) : 누락되거나 부적확한 값들과 이상 및 예외치를 처리한다.

ⓐ 결측치 처리(missing values) : 데이터에서 결측치를 찾아서 처리한다. 결측치는 적절한 값으로 대체하거나, 삭제하는 방법으로 처리한다.

ⓑ 중복값 처리(duplicates) : 데이터에서 중복된 값들을 찾아서 처리한다. 중복된 값은 분석 결과에 영향을 미칠 수 있다.

ⓓ 데이터 형식 변환 : 데이터 형식을 표준에 맞게 적절히 변환하는 것을 말한다. 날짜 형식을 표준화하거나 숫자 데이터를 범주형 데이터로 변환할 수 있다.

ⓔ 불필요한 값 제거 : 데이터에서 불필요한 값들을 제거한다. 이는 분석에 사용하지 않는 데이터나, 중복된 값을 제거하는 것이다.

㉢ 데이터 변환(data transformation) : 데이터의 형식을 표준화하거나, 인코딩을 변경한다. 또한, 피쳐 스케일링이나 피쳐 인코딩 등의 작업을 수행할 수 있다.

㉣ 피쳐 추출(feature extraction) : 데이터에서 특징을 추출하는 작업을 수행한다.

ⓐ 예를 들어 텍스트 데이터에서 단어 토큰을 추출하거나, 이미지 데이터에서 피쳐 추출을 수행하는 것이 있다.

㉤ 데이터 분리(data splitting) : 전처리된 데이터를 학습 데이터와 테스트 데이터로 분할한다.

㉥ 데이터 정규화(data normalization) : 데이터를 정규화하여 분석 및 모델링에 적합한 형태로 만든다.

㉦ 피쳐 선택(feature selection) : 분석 및 모델링이 필요한 피쳐를 선택한다.

㉧ 데이터 변환 : 최정적으로 데이터를 분석 및 모델링에 적합한 형태로 변환한다.

순환 신경망(RNN, Recurrent Neural Netswork) (0)	2024.01.06
BERT(Bidirectional Encoder Representations from Transformers) (0)	2023.12.21
손실 함수(Loss function) (0)	2023.03.05
모델의 복잡도 (0)	2023.03.05
과적합(Overfitting) (0)	2023.03.05

취미용 블로그