Home 3주차
Post
Cancel

3주차

빅데이터 처리기술

데이터 시스템

Operational Data Store

  • Data WareHouse로 이관되기 전 임시 저장소
  • 비교적 최근 데이터이며 추출, 가공, 통합 후 이관되고 지워짐

Data WareHouse

  • ERP, CRM, SCM 등 다양한 Source로부터 데이터를 수집하여 주제별로 형식화하고 통합하여 저장
  • 과거와 현재 데이터가 함께 저장되어 있음.

Data Lake

  • 조직에서 수집한 정형·반정형·비정형 데이터를 형식(Schema)를 정의, 부여하지 않고 그대로 저장하는 단일한 데이터 저장소

Data Mart

  • 데이터 웨어하우스, 데이터 레이크 등 다양한 source로부터 데이터를 모아 만든 저장소


빅데이터의 특징

3V

  • Volume - 크기
    • 저장장치 가격의 하락, 네트워크 속도의 향상으로 제타바이트의 데이터가 매일 생성
  • Variety - 다양성
    • 정형: DB 같이 고정형 필드에 저장되는 데이터
    • 반정형: XML, HTML 같이 메타데이터나 스키마등을 포함하는 데이터
    • 비정형: 동영상, SNS 메시지, 사진, 오디오 등 고정된 형태가 없는 데이터
  • Velocity - 속도
    • 정보의 유통 속도
    • 데이터의 처리 속도

5V

  • Veracity
    • 데이터의 신뢰성과 정확성
  • Value
    • 유의미한 가치


빅데이터 프로세스

1
빅데이터 프로세스는 수집 -> 적재 -> 처리/수집 -> 분석단계로 이루어져 있다.

Hadoop 업계 동향

Hadoop 전문가의 필요성


인공지능

탐색(search)

탐색(search)이란, 상태공간에서 시작상태에서 목표상태까지의 경로를 찾는 것


상태, 상태 공간, 연산자의 개념

  • 상태공간(state space): 상태들이 모여있는 공간
  • 연산자: 다음 상태를 생성하는 것
  • 초기상태
  • 목표상태


하노이탑

1
2
3
상태공간 A = {(a1,a2,a3) ∣ ai ∈ {A, B, C}} 
초기 상태 I = (A, A, A)
목표 상태 G = (C, C, C)


N-Queen

  • 상태?
  • 연산자?


4-Queen 문제 탐색 트리의 일부

탐색 트리

  • 상태 = 노드(node)
  • 초기 상태 = 루트 노드
  • 연산자 = 간선(edge)

  • 연산자를 적용하기 전까지는 탐색 트리는 미리 만들어져 있지 않음


깊이 우선 탐색(DFS)

트리 상에서, 해가 존재할 가능성이 존재하는 한, 앞으로 계속 전진하여 탐색하는 방법이다.


OPEN CLOSED 리스트

  • 탐색에서는 중복된 상태를 막기 위하여 다음과 같은 2개의 리스트를 사용한다.
    • OPEN 리스트: 확장은 되었으나 아직 탐색하지 않은 상태들이 들어 있는 리스트
    • CLOSED 리스트: 탐색이 끝난 상태들이 들어 있는 리스트
This post is licensed under CC BY 4.0 by the author.