빅데이터 처리기술
데이터 시스템
Operational Data Store
- Data WareHouse로 이관되기 전 임시 저장소
- 비교적 최근 데이터이며 추출, 가공, 통합 후 이관되고 지워짐
Data WareHouse
- ERP, CRM, SCM 등 다양한 Source로부터 데이터를 수집하여 주제별로 형식화하고 통합하여 저장
- 과거와 현재 데이터가 함께 저장되어 있음.
Data Lake
- 조직에서 수집한 정형·반정형·비정형 데이터를 형식(Schema)를 정의, 부여하지 않고 그대로 저장하는 단일한 데이터 저장소
Data Mart
- 데이터 웨어하우스, 데이터 레이크 등 다양한 source로부터 데이터를 모아 만든 저장소
빅데이터의 특징
3V
- Volume - 크기
- 저장장치 가격의 하락, 네트워크 속도의 향상으로 제타바이트의 데이터가 매일 생성
- Variety - 다양성
- 정형: DB 같이 고정형 필드에 저장되는 데이터
- 반정형: XML, HTML 같이 메타데이터나 스키마등을 포함하는 데이터
- 비정형: 동영상, SNS 메시지, 사진, 오디오 등 고정된 형태가 없는 데이터
- Velocity - 속도
- 정보의 유통 속도
- 데이터의 처리 속도
5V
- Veracity
- 데이터의 신뢰성과 정확성
- Value
- 유의미한 가치
빅데이터 프로세스
1
빅데이터 프로세스는 수집 -> 적재 -> 처리/수집 -> 분석단계로 이루어져 있다.
Hadoop 업계 동향
Hadoop 전문가의 필요성
인공지능
탐색(search)
탐색(search)이란, 상태공간에서 시작상태에서 목표상태까지의 경로를 찾는 것
상태, 상태 공간, 연산자의 개념
상태공간(state space)
: 상태들이 모여있는 공간연산자
: 다음 상태를 생성하는 것- 초기상태
- 목표상태
하노이탑
1
2
3
상태공간 A = {(a1,a2,a3) ∣ ai ∈ {A, B, C}}
초기 상태 I = (A, A, A)
목표 상태 G = (C, C, C)
N-Queen
- 상태?
- 연산자?
4-Queen 문제 탐색 트리의 일부
탐색 트리
- 상태 = 노드(node)
- 초기 상태 = 루트 노드
연산자 = 간선(edge)
- 연산자를 적용하기 전까지는 탐색 트리는 미리 만들어져 있지 않음
깊이 우선 탐색(DFS)
트리 상에서, 해가 존재할 가능성이 존재하는 한, 앞으로 계속 전진하여 탐색하는 방법이다.
OPEN CLOSED 리스트
- 탐색에서는 중복된 상태를 막기 위하여 다음과 같은
2개의 리스트
를 사용한다.OPEN 리스트
: 확장은 되었으나 아직 탐색하지 않은 상태들이 들어 있는 리스트CLOSED 리스트
: 탐색이 끝난 상태들이 들어 있는 리스트