자격증 공부/빅데이터 분석기사 필기

[데이터 전처리] 데이터 결측값(Data Missing Value)과 데이터 이상값(Data Outlier) 개념

망토맨 2023. 5. 16. 08:12

이번 포스팅에서는 데이터 결측값(Data Missing Value)과 데이터 이상값(Data Outflier)에 대해서 설명하겠습니다. 데이터 분석을 위한 데이터 전처리 과정에서 여러 가지 요인으로 인해 발생한 데이터에 누락이나 기존 데이터 범위에서 크게 벗어난 데이터를 처리해 주어야 합니다. 처리하는 방법을 배우기 전에 데이터 결측값과 데이터 이상값이 무엇인지 알아보겠습니다. 

 

 

데이터 결측값 개념(Data Missing Value) 

  • 데이터 결측값은 데이터 입력이 누락된 경우를 의미합니다.
  • 결측값은 주로 NA, NaN,NULL 등 부호화하여 표시합니다.
  • 0을 결측값으로 착각하지 않도록 주의하여야 합니다.
  • 결측값 자체가 의미가 있는 경우도 있습니다.

 

데이터 결측값 종류

종류 설명
완전 무작위 결측
(MCAR; Missing Completely At Random)
- 결측값이 다른 변수와 상관없이 발생하는 경우
무작위 결측
(MARl Missing At Random)
- 누락된 데이터가 특정 변수와 관련되어 발생하지만, 최종적으로 분석하기 위한 결과 변수와는 무관한 경우
비 무작위 결측
(MNAR; Missing Not At Random)
- 결측값이 다른 변수와 상관이 있는 경우

예시와 함께 어떤 경우인지 알아두면 이해하기 쉽습니다. 아래의 표의 경우를 예시로 설명드리겠습니다.

 

데이터 결측값의 종류 예시

아래 표는 길거리 설문조사를 통해서 이름, 성별, 키, 몸무게, 연봉을 조사한 앙케트 결과의 일부입니다. 결측값 종류를 구분해 보겠습니다.

데이터 결측값 예시

성별(X1), 키(X2)와 몸무게(X3)에 따른 연봉(Y)을 모델링 한다고 가정해 보겠습니다. 

① 이름과 성별이 키,몸무게,연봉에 영향을 주진 않습니다. 가령 유재석, 이미주이라는 이름을 가진 사람들의 신체 정보나 연봉이 공통적으로 특정되지 않고 모두 다르므로 완전 무작위 결측입니다.

② 여자인 경우 몸무게의 결측치가 66% 확률로 발생하고 있습니다. 성별의 결측치가 키, 연봉에 영향을 주진 않지만 몸무게 결측치에 상관성 있게 발생하고 있습니다. 무작위 결측으로 볼 수 있습니다. (X1이 X3의 결측값에 영향을 미침)

③ 위 ①,②에 해당하지 않는 경우 입니다. 키가 너무 작거나, 몸무게가 너무 많이 나가거나, 연봉이 너무 낮은 경우 대답을 꺼리는 경우가 많기 때문에 이런 경우는 비 무작위 결측이라고 할 수 있습니다. (변수 자체가 변수의 결측값에 영향을 미침, X2→X2, X3→X3, Y→Y) 

 

반응형

* 위 예시를 작성하고 나서 생각해보니 변수 간의 관계를 보는 시각에 따라서 다르게 적용될 수 도 있을 것 같아서 덧을 남깁니다. 모델링의 결과가 성별, 키, 체중에 따라 연봉과 상관관계가 나온다면 결측값의 분류를 다르게 할 수 더 있을 것 같습니다.

 

데이터 이상값 개념(Data Outlire) - 빈출 개념

  • 측정된 값들의 대부분의 값들이 분포한 범위에서 크게 벗어나 있는 값을 의미합니다.
  • 결측치와 달리 값이 존재하여 통계적 분석에 영향을 미칠 수 있습니다.
  • 반드시 제거해야 하는 것은 아니며, 분석하는 사람의 판단이 필요합니다.

 

이상값 발생의 원인

발생 원인 설명
데이터 입력 오류 - 데이터 수집 과정에서 발생할 수 있는 에러
- 예: 휴먼 에러, 10000을 입력해야하는데 1000을 입력함
측정 오류 - 데이터를 측정하는 과정에서 발생하는 에러
- 예: 측정 도구의 문제, 10개의 설비중 1개만 값이 작게나옴
실험 오류 - 동일하지 않은 실험 조건에서 발생하는 에러
- 예: 실험 세부 조건을 결정하지 않고 실험
고의적인 이상값 - 자기 보고식(Self Reported Measures)에서 주로 나오는 에러
- 정확하게 입력한 값이 이상값으로 보이는 경우도 있음
- 예: 건강검진 시 음주량, 평소 음주량보다 적게 입력하는 경향
표본추출 에러 - 데이터 샘플링 과정에서 나타나는 에러
- 예: 대한민국 평균 연봉을 조사하는 표본으로 연예인을 설정한 경우

 

데이터 결측값, 데이터 이상값 관련 기출 예상문제

1. 데이터 결측값의 종류에 해당하지 않는 것은 무엇인가?

  1. 완전 무작위 결측
  2. 무작위 결측
  3. 부분 무작위 결측
  4. 비 무작위 결측

 

2. 데이터 이상값 발생의 원인이 아닌 것을 고르시오.

  1. 잘못된 측정도구를 사용
  2. 응답자의 고의적인 거짓 대답
  3. 실수로 데이터 입력을 누락
  4. 데이터 표본을 잘 못 설정

 

정답 : 1-③, 2-③

 

데이터 결측값과 데이터 이상값의 개념에 대해서 공부해 봤습니다. 데이터 이상값은 빅데이터분석기사 필기시험에 자주 출제되는 중요한 개념입니다. 다음 포스팅에서는 데이터 결측값과 이상값을 어떻게 검출하고 처리하는지 알아보도록 하겠습니다. 끝까지 읽어주셔서 감사합니다.

 

같이 읽을만한 추천 글

2022.04.29 - [자격증 공부/빅데이터 분석기사 필기] - [데이터 전처리] 데이터 정제(Data Cleansing)와 데이터 세분화(Data Segmentation)

 

[데이터 전처리] 데이터 정제(Data Cleansing)와 데이터 세분화(Data Segmentation)

2 빅데이터 탐색 데이터 전처리 - 데이터 정제(Data Cleansing) 데이터 정제의 개념 : 결측값, 이상값 등을 처리하여 데이터의 신뢰도를 높이는 작업 데이터 정제 절차 : 순서 데이터 정제 절차 설명 1

mangtoman.tistory.com

 

결측값과 이상값 개념 섬네일
결측값과 이상값 개념 섬네일