2 빅데이터 탐색
데이터 전처리 - 데이터 정제(Data Cleansing)
- 데이터 정제의 개념 :
결측값, 이상값 등을 처리하여 데이터의 신뢰도를 높이는 작업 - 데이터 정제 절차 :
순서 | 데이터 정제 절차 | 설명 |
1 | 오류 원인 분석 | 원천 데이터의 오류, 빅데이터 플로우의 오류 등으로 발생 |
2 | 정제 대상 선정 | 모든 데이터를 대상으로 정제 진행 |
3 | 정제 방법 결정 | 오류 데이터를 삭제, 대체, 예측값으로 삽입 |
- 데이터 오류 원인 :
원인 | 설명 | 처리 방법 예시 |
결측값 ( Missing Value ) |
데이터가 입력되지 않고 누락된 값 | - 경향값 넣기 ( 전체 데이터의 평균값, 중앙값, 최빈값 등 ) - 확률 분포 기반 랜덤값 넣기 |
잡음 ( Noise ) |
실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값 | - 일정 규칙을 가지고 평균값으로 대체 |
이상값 ( Outlier ) |
데이터의 정상적인 범위에서 많이 벗어난 아주 크거나 작은 값 | - 하한값 또는 상한값 대체 |
- 데이터 정제 방법 :
- 삭제 : 정제가 필요한 데이터의 부분/전체 삭제
- 대체 : 오류 데이터를 평균, 최빈값, 중앙값 등으로 대체
- 예측값 삽입 : 회귀식 등을 이용해 예측값을 삽입
※ 데이터 정제는 정제 후 데이터 활용 시에 데이터 왜곡이 발생하지 않게 고려해서 진행해야 한다.
- 데이터 정제 기법 : 여러가지 다른 시스템으로부터 온 데이터에 대해 일관성을 부여하기 위해 수행
기법 | 설명 | 사례 |
변환 ( Transform ) |
다양한 형태/형식의 값을 일관된 형태/형식으로 변환하는 작업 | - 코드 변환 (90점 이상-> A, 80점 이상-> B,.. / 남-> M, 여-> F) - 형식 변환 (YYYY-MM-DD -> MM월 DD일) |
파싱 ( Parsing ) |
데이터 정제 규칙 적용을 위해 유의미한 최소 단위로 분할 하는 작업 | - 이메일을 아이디와 주소로 분할 - 주민등록 번호를 생년월일, 성별로 분할 |
보강 ( Enhancement ) |
변환, 파싱, 수정, 표준화 등을 통한 추가 정보를 반영하는 작업 | - 변환과 파싱을 거친 데이터를 추가 보강 작업 |
반응형
- 데이터 정제 기술 : 데이터를 빠르고 안정적으로 정제하고, 데이터 처리의 성능을 보장하기 위해 분산 처리 시스템 기반의 인 메모리(In-Memory) 기반 컴퓨팅 기술을 사용
- ETL ( Extract, Trasform, Load ) : 수집이 필요한 데이터를 추출, 가공(변환, 정제)하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술
- 맵 리듀스 ( Map Reduce ) :
- 구글에서 대용량 데이터 세트를 병렬 컴퓨팅 처리하기 위해 만들어진 S/W 프레임워크.
- 모든 데이터를 키-값(Key-Value) 쌍으로 구성
- 데이터를 추출하는 Map 기술과 중복이 업섹 처리하는 Reduce 기술로 구성
- 배치 형태 처리 방식으로 데이터의 양이 많아지면 성능이 저하됨 - 스파크/스톰 : 인 메모리 기반 데이터 처리 방식, 맵리듀스의 성능을 개선하여 실시간, 배치 처리 모두 가능
- CEP ( Complex Event Processing ) : 실시간 이벤트에 대한 데이터를 처리하는 기술, IOT 센싱 데이터, 음성 데이터 등 실시간 데이터 처리 기법
- 피그 : 대용량 데이터 집합 분석 플랫폼, 하둡을 이용해서 맵리듀스를 하기 위한 자체언어 '피그 라틴' 제공
- 플럼 : 로그 데이터를 수집하고 처리, 실시간에 근접하게 데이터 전처리 가능
데이터 세분화의 개념(Data Segmentation)
- 데이터 세분화의 개념 :
데이터를 기준에 따라 나누고, 선택한 매개변수를 기반으로 그룹화하여 데이터를 효율적으로 사용할 수 있게 하는 작업
- 데이터 세분화 방법
구분 | 기법 | 설명 |
계층적 방법 | 응집분석법 | 각 개체를 하나의 소집단으로 간주하고 단계적으로 유사한 소집단들을 합쳐 새로운 소집단을 구성해가는 기법 |
분할분석법 | 전체 집단으로부터 시작하여 유사성이 떨어지는 객체들을 분리해가는 기법 | |
비 계층적 방법 | 인공신경망 모델 | 기계 학습에서 생물학의 신경망으로부터 영감을 얻은 통계학적 학습모델 |
K-평균 군집화 | K개의 중심좌표를 이용하여 각 개체와 중심좌표 간의 거리를 산출하여, 근접한 개체들을 소집단에 배정해가며 군집화하는 방식 |
데이터 정제 예상 문제
데이터 일관성을 유지하기 위해 데이터 정제를 한 사례를 보고 알맞은 데이터 정제 기법을 고르시오.
서울, 서울시, 서울특별시 → 1
경기, 경기도 → 2
인천, 인천광역시 → 3
- 변환 ( Transformation )
- 보강 ( Enhancement )
- 파싱 ( Parsing )
- 추출 ( Extracting )
정답 : 1
'자격증 공부 > 빅데이터 분석기사 필기' 카테고리의 다른 글
데이터 전처리와 데이터 정제의 차이 알아보자 (0) | 2024.09.25 |
---|---|
[데이터 전처리] 데이터 결측값(Data Missing Value)과 데이터 이상값(Data Outlier) 개념 (1) | 2023.05.16 |
빅데이터 분석기사 일정 & 데이터 분석 전문가 시험 일정(2022년도) (4) | 2021.12.29 |
1. 빅데이터의 특징 (0) | 2021.01.27 |
빅데이터 분석기사 필기 과목 (빅데이터 분석기사 정보) (0) | 2021.01.26 |