2 빅데이터 탐색 데이터 전처리 - 데이터 정제(Data Cleansing) 데이터 정제의 개념 : 결측값, 이상값 등을 처리하여 데이터의 신뢰도를 높이는 작업 데이터 정제 절차 : 순서 데이터 정제 절차 설명 1 오류 원인 분석 원천 데이터의 오류, 빅데이터 플로우의 오류 등으로 발생 2 정제 대상 선정 모든 데이터를 대상으로 정제 진행 3 정제 방법 결정 오류 데이터를 삭제, 대체, 예측값으로 삽입 데이터 오류 원인 : 원인 설명 처리 방법 예시 결측값 ( Missing Value ) 데이터가 입력되지 않고 누락된 값 - 경향값 넣기 ( 전체 데이터의 평균값, 중앙값, 최빈값 등 ) - 확률 분포 기반 랜덤값 넣기 잡음 ( Noise ) 실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값 - 일정 ..