빅데이터 처리기술

데이터 시스템

Operational Data Store

Data WareHouse로 이관되기 전 임시 저장소
비교적 최근 데이터이며 추출, 가공, 통합 후 이관되고 지워짐

Data WareHouse

ERP, CRM, SCM 등 다양한 Source로부터 데이터를 수집하여 주제별로 형식화하고 통합하여 저장
과거와 현재 데이터가 함께 저장되어 있음.

Data Lake

조직에서 수집한 정형·반정형·비정형 데이터를 형식(Schema)를 정의, 부여하지 않고 그대로 저장하는 단일한 데이터 저장소

Data Mart

데이터 웨어하우스, 데이터 레이크 등 다양한 source로부터 데이터를 모아 만든 저장소

빅데이터의 특징

3V

Volume - 크기
- 저장장치 가격의 하락, 네트워크 속도의 향상으로 제타바이트의 데이터가 매일 생성
Variety - 다양성
- 정형: DB 같이 고정형 필드에 저장되는 데이터
- 반정형: XML, HTML 같이 메타데이터나 스키마등을 포함하는 데이터
- 비정형: 동영상, SNS 메시지, 사진, 오디오 등 고정된 형태가 없는 데이터
Velocity - 속도
- 정보의 유통 속도
- 데이터의 처리 속도

5V

Veracity
- 데이터의 신뢰성과 정확성
Value
- 유의미한 가치

빅데이터 프로세스

빅데이터 프로세스는 수집 -> 적재 -> 처리/수집 -> 분석단계로 이루어져 있다.

Hadoop 업계 동향

Hadoop 전문가의 필요성

인공지능

탐색(search)

탐색(search)이란, 상태공간에서 시작상태에서 목표상태까지의 경로를 찾는 것

상태, 상태 공간, 연산자의 개념

상태공간(state space): 상태들이 모여있는 공간
연산자: 다음 상태를 생성하는 것
초기상태
목표상태

하노이탑

상태공간 A = {(a1,a2,a3) ∣ ai ∈ {A, B, C}} 
초기 상태 I = (A, A, A)
목표 상태 G = (C, C, C)

N-Queen

상태?
연산자?

4-Queen 문제 탐색 트리의 일부

탐색 트리

상태 = 노드(node)
초기 상태 = 루트 노드
연산자 = 간선(edge)
연산자를 적용하기 전까지는 탐색 트리는 미리 만들어져 있지 않음

깊이 우선 탐색(DFS)

트리 상에서, 해가 존재할 가능성이 존재하는 한, 앞으로 계속 전진하여 탐색하는 방법이다.

OPEN CLOSED 리스트

탐색에서는 중복된 상태를 막기 위하여 다음과 같은 2개의 리스트를 사용한다.
- OPEN 리스트: 확장은 되었으나 아직 탐색하지 않은 상태들이 들어 있는 리스트
- CLOSED 리스트: 탐색이 끝난 상태들이 들어 있는 리스트

3주차

빅데이터 처리기술

데이터 시스템

Operational Data Store

Data WareHouse

Data Lake

Data Mart

빅데이터의 특징

3V

5V

빅데이터 프로세스

Hadoop 업계 동향

Hadoop 전문가의 필요성

인공지능

탐색(search)

상태, 상태 공간, 연산자의 개념

하노이탑

N-Queen

4-Queen 문제 탐색 트리의 일부

탐색 트리

깊이 우선 탐색(DFS)

OPEN CLOSED 리스트

Further Reading

6주차

4주차

2주차