데이터 정제(Data Cleaning)와 데이터 전처리(Data Preprocessing)는 데이터 분석 및 머신러닝 프로젝트에서 중요한 단계입니다. 두 개념이 서로 밀접하게 연관되어 있지만, 목적과 작업 범위에서 차이가 있습니다. 각 개념을 구체적으로 살펴보면 다음과 같습니다.
1. 데이터 정제 (Data Cleaning)
데이터 정제는 주로 "잘못된" 데이터의 문제를 해결하는 단계입니다. 데이터셋이 누락되거나, 부정확하거나, 중복되거나, 이상값(outliers)을 포함할 때 이를 찾아 수정하거나 제거하는 과정입니다. 이는 데이터 분석이나 모델 훈련의 신뢰성을 높이는 데 매우 중요한 단계입니다.
데이터 정제 작업:
- 누락값 처리: 결측 데이터(missing data)를 제거하거나 평균, 중앙값 또는 다른 방법으로 대체.
- 중복 데이터 제거: 동일한 레코드가 여러 번 기록된 경우 중복 데이터를 제거.
- 오류 수정: 잘못된 값(예: 음수가 나올 수 없는 필드에서 음수가 입력된 경우)을 수정.
- 이상값 처리: 통계적으로 비정상적인 값(outliers)을 제거하거나 수정.
- 비일관성 해결: 동일한 정보가 다른 방식으로 표현된 경우(예: ‘NY’와 ‘New York’이 같은 데이터로 입력된 경우) 통일.
목적:
- 데이터의 품질을 높여 분석의 정확성을 보장.
- 모델 학습의 왜곡을 줄이고, 결과의 신뢰성을 높임.
2. 데이터 전처리 (Data Preprocessing)
데이터 전처리는 데이터 분석이나 머신러닝 모델에 사용할 수 있도록 데이터를 준비하는 모든 단계를 포함하는 넓은 범위의 과정입니다. 여기에는 데이터 정제도 포함되며, 추가로 데이터의 변환, 통합, 축소 등도 이루어집니다.
데이터 전처리 작업:
- 데이터 정규화 (Normalization): 데이터 값의 범위를 조정하여 모델 훈련의 안정성을 높임(예: 0에서 1 사이로 값을 변환).
- 스케일링 (Scaling): 서로 다른 단위의 데이터를 일관된 크기로 변환(예: 키는 cm, 무게는 kg로 기록된 경우).
- 원-핫 인코딩 (One-Hot Encoding): 범주형 데이터를 수치형 데이터로 변환(예: '남성', '여성'을 0과 1로 변환).
- 차원 축소: 고차원 데이터를 더 낮은 차원으로 변환하여 학습 속도를 개선하고 과적합을 방지.
- 특성 선택 (Feature Selection): 모델의 성능을 높이기 위해 불필요한 특성(피처)을 제거하고, 중요한 피처만 선택.
- 데이터 분리: 훈련 데이터와 테스트 데이터를 나누는 과정.
목적:
- 모델이 더 빠르고 효율적으로 학습할 수 있도록 데이터의 구조를 변경.
- 과적합(overfitting)을 방지하고 일반화 성능을 높임.
- 데이터의 다양한 형식을 통일하고, 분석 또는 머신러닝 모델에 적합한 형태로 변환.
차이점 요약:
구분데이터 정제 (Data Cleaning)데이터 전처리 (Data Preprocessing)
구분 | 데이터 정제(Data Cleaning) | 데이터 전처리(Data Preprocessing) |
초점 | 데이터의 오류 수정 및 데이터 품질 향상 | 모델 학습 및 분석에 적합한 데이터 구조로 변환 |
작업 범위 | 결측값 처리, 중복 제거, 이상값 처리 등 | 정제 외에도 스케일링, 차원 축소, 원-핫 인코딩 등 다양한 변환 작업 포함 |
목적 | 데이터의 신뢰성을 보장하기 위한 품질 관리 | 분석 및 머신러닝 모델이 데이터를 효율적으로 학습하도록 준비 |
포함 관계 | 데이터 전처리의 한 부분 | 더 넓은 범위의 작업을 포함, 데이터 정제도 전처리 과정의 일부임 |
결론
이번 포스팅에서는 많은 분들이 헷갈려하시는 데이터 정제와 데이터 전처리의 차이점에 대해서 정리해보았습니다. 데이터 정제는 데이터셋의 "문제"를 해결하는 데 중점을 둔 작업이고, 데이터 전처리는 그 외에도 데이터의 변환, 통합, 정규화 등 모델이 데이터를 잘 이해하고 처리할 수 있도록 준비하는 더 넓은 범위의 작업입니다.
관련 포스팅
[데이터 전처리] 데이터 결측값(Data Missing Value)과 데이터 이상값(Data Outlier) 개념
이번 포스팅에서는 데이터 결측값(Data Missing Value)과 데이터 이상값(Data Outflier)에 대해서 설명하겠습니다. 데이터 분석을 위한 데이터 전처리 과정에서 여러 가지 요인으로 인해 발생한 데이터에
mangtoman.tistory.com
[데이터 전처리] 데이터 정제(Data Cleansing)와 데이터 세분화(Data Segmentation)
2 빅데이터 탐색 데이터 전처리 - 데이터 정제(Data Cleansing) 데이터 정제의 개념 : 결측값, 이상값 등을 처리하여 데이터의 신뢰도를 높이는 작업 데이터 정제 절차 : 순서 데이터 정제 절차 설명 1
mangtoman.tistory.com
'자격증 공부 > 빅데이터 분석기사 필기' 카테고리의 다른 글
[데이터 전처리] 데이터 결측값(Data Missing Value)과 데이터 이상값(Data Outlier) 개념 (1) | 2023.05.16 |
---|---|
[데이터 전처리] 데이터 정제(Data Cleansing)와 데이터 세분화(Data Segmentation) (6) | 2022.04.29 |
빅데이터 분석기사 일정 & 데이터 분석 전문가 시험 일정(2022년도) (4) | 2021.12.29 |
1. 빅데이터의 특징 (0) | 2021.01.27 |
빅데이터 분석기사 필기 과목 (빅데이터 분석기사 정보) (0) | 2021.01.26 |