728x90
반응형

빅데이터분석기사필기 2

[데이터 전처리] 데이터 결측값(Data Missing Value)과 데이터 이상값(Data Outlier) 개념

이번 포스팅에서는 데이터 결측값(Data Missing Value)과 데이터 이상값(Data Outflier)에 대해서 설명하겠습니다. 데이터 분석을 위한 데이터 전처리 과정에서 여러 가지 요인으로 인해 발생한 데이터에 누락이나 기존 데이터 범위에서 크게 벗어난 데이터를 처리해 주어야 합니다. 처리하는 방법을 배우기 전에 데이터 결측값과 데이터 이상값이 무엇인지 알아보겠습니다. 데이터 결측값 개념(Data Missing Value) 데이터 결측값은 데이터 입력이 누락된 경우를 의미합니다. 결측값은 주로 NA, NaN,NULL 등 부호화하여 표시합니다. 0을 결측값으로 착각하지 않도록 주의하여야 합니다. 결측값 자체가 의미가 있는 경우도 있습니다. 데이터 결측값 종류 종류 설명 완전 무작위 결측 (MCAR..

[데이터 전처리] 데이터 정제(Data Cleansing)와 데이터 세분화(Data Segmentation)

2 빅데이터 탐색 데이터 전처리 - 데이터 정제(Data Cleansing) 데이터 정제의 개념 : 결측값, 이상값 등을 처리하여 데이터의 신뢰도를 높이는 작업 데이터 정제 절차 : 순서 데이터 정제 절차 설명 1 오류 원인 분석 원천 데이터의 오류, 빅데이터 플로우의 오류 등으로 발생 2 정제 대상 선정 모든 데이터를 대상으로 정제 진행 3 정제 방법 결정 오류 데이터를 삭제, 대체, 예측값으로 삽입 데이터 오류 원인 : 원인 설명 처리 방법 예시 결측값 ( Missing Value ) 데이터가 입력되지 않고 누락된 값 - 경향값 넣기 ( 전체 데이터의 평균값, 중앙값, 최빈값 등 ) - 확률 분포 기반 랜덤값 넣기 잡음 ( Noise ) 실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값 - 일정 ..

728x90