All about Machine-Learning/기본

전처리(Preprocessing)

※ 이 글은 chatGPT를 기반으로 작성한 글입니다.

① 전처리(preprocessing)은 데이터 분석 및 기계 학습 모델링을 수행하기 전에 데이터를 정제하고 준비하는 과정이다.

② 전처리를 하는 목적은 크게 두 가지가 있다.

  ㉠ 노이즈를 제거하고, 누락되거나 부정확한 데이터를 처리하기 위해서이다.

  ㉡ 데이터 형식을 표준화하고, 피쳐 추출 및 선택을 위해 데이터를 준비하기 위해서이다.

③ 전처리의 과정은 몇 가지 단계를 거친다.

  ㉠ 데이터 수집(data collection) : 분석을 위한 데이터를 수집한다.

 

  ㉡ 데이터 정제(data cleaning) : 누락되거나 부적확한 값들과 이상 및 예외치를 처리한다.

    ⓐ 결측치 처리(missing values) : 데이터에서 결측치를 찾아서 처리한다. 결측치는 적절한 값으로 대체하거나, 삭제하는 방법으로 처리한다.

    ⓑ 중복값 처리(duplicates) : 데이터에서 중복된 값들을 찾아서 처리한다. 중복된 값은 분석 결과에 영향을 미칠 수 있다.

    ⓒ 이상치 처리(outliers) : 데이터에서 이상치를 찾아서 처리한다. 이상치는 분석 결과를 왜곡시킬 수 있다. 이상치를 찾아서 삭제하거나, 적절한 값으로 대체하는 방법으로 처리할 수 있다.

    ⓓ 데이터 형식 변환 : 데이터 형식을 표준에 맞게 적절히 변환하는 것을 말한다. 날짜 형식을 표준화하거나 숫자 데이터를 범주형 데이터로 변환할 수 있다.

    ⓔ 불필요한 값 제거 : 데이터에서 불필요한 값들을 제거한다. 이는 분석에 사용하지 않는 데이터나, 중복된 값을 제거하는 것이다.

 

  ㉢ 데이터 변환(data transformation) : 데이터의 형식을 표준화하거나, 인코딩을 변경한다. 또한, 피쳐 스케일링이나 피쳐 인코딩 등의 작업을 수행할 수 있다.

  ㉣ 피쳐 추출(feature extraction) : 데이터에서 특징을 추출하는 작업을 수행한다.

    ⓐ 예를 들어 텍스트 데이터에서 단어 토큰을 추출하거나, 이미지 데이터에서 피쳐 추출을 수행하는 것이 있다.

  ㉤ 데이터 분리(data splitting) : 전처리된 데이터를 학습 데이터와 테스트 데이터로 분할한다.

  ㉥ 데이터 정규화(data normalization) : 데이터를 정규화하여 분석 및 모델링에 적합한 형태로 만든다.

  ㉦ 피쳐 선택(feature selection) : 분석 및 모델링이 필요한 피쳐를 선택한다.

  ㉧ 데이터 변환 : 최정적으로 데이터를 분석 및 모델링에 적합한 형태로 변환한다.