[데이터 전처리] 데이터 정제(Data Cleansing)와 데이터 세분화(Data Segmentation)

자격증 공부/빅데이터 분석기사 필기

[데이터 전처리] 데이터 정제(Data Cleansing)와 데이터 세분화(Data Segmentation)

망토맨 2022. 4. 29. 04:22

2 빅데이터 탐색

데이터 전처리 - 데이터 정제(Data Cleansing)

데이터 정제의 개념 :
결측값, 이상값 등을 처리하여 데이터의 신뢰도를 높이는 작업
데이터 정제 절차 :

순서	데이터 정제 절차	설명
1	오류 원인 분석	원천 데이터의 오류, 빅데이터 플로우의 오류 등으로 발생
2	정제 대상 선정	모든 데이터를 대상으로 정제 진행
3	정제 방법 결정	오류 데이터를 삭제, 대체, 예측값으로 삽입

데이터 오류 원인 :

원인	설명	처리 방법 예시
결측값 ( Missing Value )	데이터가 입력되지 않고 누락된 값	- 경향값 넣기 ( 전체 데이터의 평균값, 중앙값, 최빈값 등 ) - 확률 분포 기반 랜덤값 넣기
잡음 ( Noise )	실제는 입력되지 않았지만 입력되었다고 잘못 판단된 값	- 일정 규칙을 가지고 평균값으로 대체
이상값 ( Outlier )	데이터의 정상적인 범위에서 많이 벗어난 아주 크거나 작은 값	- 하한값 또는 상한값 대체

데이터 정제 방법 :
- 삭제 : 정제가 필요한 데이터의 부분/전체 삭제
- 대체 : 오류 데이터를 평균, 최빈값, 중앙값 등으로 대체
- 예측값 삽입 : 회귀식 등을 이용해 예측값을 삽입
  ※ 데이터 정제는 정제 후 데이터 활용 시에 데이터 왜곡이 발생하지 않게 고려해서 진행해야 한다.

데이터 정제 기법 : 여러가지 다른 시스템으로부터 온 데이터에 대해 일관성을 부여하기 위해 수행

기법	설명	사례
변환 ( Transform )	다양한 형태/형식의 값을 일관된 형태/형식으로 변환하는 작업	- 코드 변환 (90점 이상-> A, 80점 이상-> B,.. / 남-> M, 여-> F) - 형식 변환 (YYYY-MM-DD -> MM월 DD일)
파싱 ( Parsing )	데이터 정제 규칙 적용을 위해 유의미한 최소 단위로 분할 하는 작업	- 이메일을 아이디와 주소로 분할 - 주민등록 번호를 생년월일, 성별로 분할
보강 ( Enhancement )	변환, 파싱, 수정, 표준화 등을 통한 추가 정보를 반영하는 작업	- 변환과 파싱을 거친 데이터를 추가 보강 작업

데이터 정제 기술 : 데이터를 빠르고 안정적으로 정제하고, 데이터 처리의 성능을 보장하기 위해 분산 처리 시스템 기반의 인 메모리(In-Memory) 기반 컴퓨팅 기술을 사용
- ETL ( Extract, Trasform, Load ) : 수집이 필요한 데이터를 추출, 가공(변환, 정제)하여 데이터 웨어하우스 및 데이터 마트에 저장하는 기술
- 맵 리듀스 ( Map Reduce ) :
  - 구글에서 대용량 데이터 세트를 병렬 컴퓨팅 처리하기 위해 만들어진 S/W 프레임워크.
  - 모든 데이터를 키-값(Key-Value) 쌍으로 구성
  - 데이터를 추출하는 Map 기술과 중복이 업섹 처리하는 Reduce 기술로 구성
  - 배치 형태 처리 방식으로 데이터의 양이 많아지면 성능이 저하됨
- 스파크/스톰 : 인 메모리 기반 데이터 처리 방식, 맵리듀스의 성능을 개선하여 실시간, 배치 처리 모두 가능
- CEP ( Complex Event Processing ) : 실시간 이벤트에 대한 데이터를 처리하는 기술, IOT 센싱 데이터, 음성 데이터 등 실시간 데이터 처리 기법
- 피그 : 대용량 데이터 집합 분석 플랫폼, 하둡을 이용해서 맵리듀스를 하기 위한 자체언어 '피그 라틴' 제공
- 플럼 : 로그 데이터를 수집하고 처리, 실시간에 근접하게 데이터 전처리 가능

데이터 세분화의 개념(Data Segmentation)

데이터 세분화의 개념 :
데이터를 기준에 따라 나누고, 선택한 매개변수를 기반으로 그룹화하여 데이터를 효율적으로 사용할 수 있게 하는 작업

데이터 세분화 방법

구분	기법	설명
계층적 방법	응집분석법	각 개체를 하나의 소집단으로 간주하고 단계적으로 유사한 소집단들을 합쳐 새로운 소집단을 구성해가는 기법
계층적 방법	분할분석법	전체 집단으로부터 시작하여 유사성이 떨어지는 객체들을 분리해가는 기법
비 계층적 방법	인공신경망 모델	기계 학습에서 생물학의 신경망으로부터 영감을 얻은 통계학적 학습모델
비 계층적 방법	K-평균 군집화	K개의 중심좌표를 이용하여 각 개체와 중심좌표 간의 거리를 산출하여, 근접한 개체들을 소집단에 배정해가며 군집화하는 방식

k-means clustering

데이터 정제 예상 문제

데이터 일관성을 유지하기 위해 데이터 정제를 한 사례를 보고 알맞은 데이터 정제 기법을 고르시오.

서울, 서울시, 서울특별시 → 1
경기, 경기도 → 2
인천, 인천광역시 → 3

변환 ( Transformation )
보강 ( Enhancement )
파싱 ( Parsing )
추출 ( Extracting )

정답 : 1

저작자표시 비영리 (새창열림)

'자격증 공부 > 빅데이터 분석기사 필기' 카테고리의 다른 글

데이터 전처리와 데이터 정제의 차이 알아보자 (0)	2024.09.25
[데이터 전처리] 데이터 결측값(Data Missing Value)과 데이터 이상값(Data Outlier) 개념 (1)	2023.05.16
빅데이터 분석기사 일정 & 데이터 분석 전문가 시험 일정(2022년도) (4)	2021.12.29
1. 빅데이터의 특징 (0)	2021.01.27
빅데이터 분석기사 필기 과목 (빅데이터 분석기사 정보) (0)	2021.01.26

현재글[데이터 전처리] 데이터 정제(Data Cleansing)와 데이터 세분화(Data Segmentation)

땡땡맹에서 땡땡맨되기 국내 맛집리뷰, 해외 여행 정보를 공유합니다. 뉴질랜드 여행정보를 공유합니다.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

땡땡맹에서 땡땡맨되기

[데이터 전처리] 데이터 정제(Data Cleansing)와 데이터 세분화(Data Segmentation)

'자격증 공부 > 빅데이터 분석기사 필기' 카테고리의 다른 글

'자격증 공부/빅데이터 분석기사 필기'의 다른글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

[데이터 전처리] 데이터 정제(Data Cleansing)와 데이터 세분화(Data Segmentation)

'자격증 공부 > 빅데이터 분석기사 필기' 카테고리의 다른 글

'자격증 공부/빅데이터 분석기사 필기'의 다른글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역