자격증 공부/빅데이터 분석기사 필기

[데이터 전처리] 데이터 정제(Data Cleansing)와 데이터 세분화(Data Segmentation)

망토맨 2022. 4. 29. 04:22

2 빅데이터 탐색

데이터 전처리 - 데이터 정제(Data Cleansing)

 

  • 데이터 정제의 개념 :
    결측값, 이상값 등을 처리하여 데이터의 신뢰도를 높이는 작업
  • 데이터 정제 절차 :
순서 데이터 정제 절차 설명
1 오류 원인 분석 원천 데이터의 오류, 빅데이터 플로우의 오류 등으로 발생
2 정제 대상 선정 모든 데이터를 대상으로 정제 진행
3 정제 방법 결정 오류 데이터를 삭제, 대체, 예측값으로 삽입

 

  • 데이터 오류 원인 :
원인 설명 처리 방법 예시
결측값
( Missing Value )
데이터가 입력되지 않고 누락된 값 - 경향값 넣기 ( 전체 데이터의 평균값, 중앙값, 최빈값 등 )
- 확률 분포 기반 랜덤값 넣기
잡음
( Noise )
실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값 - 일정 규칙을 가지고 평균값으로 대체
이상값
( Outlier )
데이터의 정상적인 범위에서 많이 벗어난 아주 크거나 작은 값 - 하한값 또는 상한값 대체

 

  • 데이터 정제 방법 :
    • 삭제 : 정제가 필요한 데이터의 부분/전체 삭제
    • 대체 : 오류 데이터를 평균, 최빈값, 중앙값 등으로 대체
    • 예측값 삽입 : 회귀식 등을 이용해 예측값을 삽입
      ※ 데이터 정제는 정제 후 데이터 활용 시에 데이터 왜곡이 발생하지 않게 고려해서 진행해야 한다.

 

  • 데이터 정제 기법 : 여러가지 다른 시스템으로부터 온 데이터에 대해 일관성을 부여하기 위해 수행
기법 설명 사례
변환
( Transform )
다양한 형태/형식의 값을 일관된 형태/형식으로 변환하는 작업 - 코드 변환 (90점 이상-> A, 80점 이상-> B,.. / 남-> M, 여-> F)
- 형식 변환 (YYYY-MM-DD -> MM월 DD일)
파싱
( Parsing )
데이터 정제 규칙 적용을 위해 유의미한 최소 단위로 분할 하는 작업 - 이메일을 아이디와 주소로 분할
- 주민등록 번호를 생년월일, 성별로 분할
보강
( Enhancement )
변환, 파싱, 수정, 표준화 등을 통한 추가 정보를 반영하는 작업 - 변환과 파싱을 거친 데이터를 추가 보강 작업
반응형
  • 데이터 정제 기술 : 데이터를 빠르고 안정적으로 정제하고, 데이터 처리의 성능을 보장하기 위해 분산 처리 시스템 기반의 인 메모리(In-Memory) 기반 컴퓨팅 기술을 사용
    • ETL ( Extract, Trasform, Load ) : 수집이 필요한 데이터를 추출, 가공(변환, 정제)하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술
    • 맵 리듀스 ( Map Reduce ) :
      - 구글에서 대용량 데이터 세트를 병렬 컴퓨팅 처리하기 위해 만들어진 S/W 프레임워크.
      - 모든 데이터를 키-값(Key-Value) 쌍으로 구성
      - 데이터를 추출하는 Map 기술과 중복이 업섹 처리하는 Reduce 기술로 구성
      - 배치 형태 처리 방식으로 데이터의 양이 많아지면 성능이 저하됨
    • 스파크/스톰 : 인 메모리 기반 데이터 처리 방식, 맵리듀스의 성능을 개선하여 실시간, 배치 처리 모두 가능
    • CEP ( Complex Event Processing ) : 실시간 이벤트에 대한 데이터를 처리하는 기술, IOT 센싱 데이터, 음성 데이터 등 실시간 데이터 처리 기법
    • 피그 : 대용량 데이터 집합 분석 플랫폼, 하둡을 이용해서 맵리듀스를 하기 위한 자체언어 '피그 라틴' 제공
    • 플럼 : 로그 데이터를 수집하고 처리, 실시간에 근접하게 데이터 전처리 가능

 

 

데이터 세분화의 개념(Data Segmentation)

 

  • 데이터 세분화의 개념 :
    데이터를 기준에 따라 나누고, 선택한 매개변수를 기반으로 그룹화하여 데이터를 효율적으로 사용할 수 있게 하는 작업

 

  • 데이터 세분화 방법 
구분 기법 설명
계층적 방법 응집분석법  각 개체를 하나의 소집단으로 간주하고 단계적으로 유사한 소집단들을 합쳐 새로운 소집단을 구성해가는 기법
분할분석법 전체 집단으로부터 시작하여 유사성이 떨어지는 객체들을 분리해가는 기법
비 계층적 방법 인공신경망 모델 기계 학습에서 생물학의 신경망으로부터 영감을 얻은 통계학적 학습모델
K-평균 군집화 K개의 중심좌표를 이용하여 각 개체와 중심좌표 간의 거리를 산출하여, 근접한 개체들을 소집단에 배정해가며 군집화하는 방식

 

 

k-means clustering

 

데이터 정제 예상 문제

 

데이터 일관성을 유지하기 위해 데이터 정제를 한 사례를 보고 알맞은 데이터 정제 기법을 고르시오.

서울, 서울시, 서울특별시 → 1
경기, 경기도 → 2
인천, 인천광역시 → 3
  1. 변환 ( Transformation )
  2. 보강 ( Enhancement )
  3. 파싱 ( Parsing )
  4. 추출 ( Extracting )

 

 

정답 : 1