본문 바로가기
  • 기억보단 기록을..
TIL/빅데이터 분석기사

01_빅데이터 분석 기획 (1)

by reine94._.dev 2020. 12. 13.

1. 빅데이터의 이해

(1) 빅데이터 특징 개요 및 활용

ㅇ 빅데이터 개념

  • 빅데이터는 막대한양(수십 테라바이트 이상)의 정형 및 비정형 데이터이다.
  • 데이터로부터 가치 추출, 결과를 분석하는 기술의 의미
  • DIKW 피라미드

DIKW피라미드

피라미드 요소 설명
데이터(Data) 객관적 사실로서 다른 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호
예) 수제비 책을 A사이트에서 30,000원, B사이트에서 35,000원에 판매
정보(information) 가공, 처리하여 데이터 간의 연관 관계와 함께 의미가 도출된 데이터
예) 수제비 책은 A사이트에서 더 싸게 판매
지식(Knowledge) 획득한 다양한 정보를 구조화하여 유의미한 정보로 분류하고 일반화시킨 결과
정보에 기반해 찾아진 규칙
예) A사이트가 더 싸게 팔기 때문에 수제비 책을 구입할 계획
지혜(Wisdom) 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어
상황이나 맥락에 맞게 규칙을 적용하는 요소
A사이트의 다른 상품들도 B사이트보다 저렴할 것으로 판단

 

ㅇ 데이터의 크기

기호 이름
KB 킬로바이트 103Bytes
MB 메가바이트 106Bytes
GB 기가 109Bytes
TB 테라 1012Bytes
PB 페타 1015Bytes
EB 엑사 1018Bytes
ZY 제타 1021Bytes
YB 요타 1024Bytes

 

ㅇ 빅데이터 특징

  • 3V
    - Volume 규모
    - Variety 다양성
    - Velocity 속도
  • 5V
    - Veracity 신뢰성
    - Value 가치
  • 7V
    - Validity 정확성
    - Volatility 휘발성

ㅇ 빅데이터 유형

  • 정형
    • 정형화된 스키마 구조. DBMS에 내용이 저장될 수 있는 구조
    • 고정된 필드(속성)에 저장된 데이터
    • 관계형 데이터베이스(Oracle, MS-SQL, 등)
  • 반정형
    • 데이터 내부의 데이터 구조에 대한 메타 정보가 포함된 구조
    • 고정된 필드ㅔㅇ 저장되어 있지만, 메타데이터나 데이터 스키마 정보를 포함하는 데이터
    • XML, HTML, JSON, 등
  • 비정형
    • 수집 데이터 각각이 데이터 객체로 구분
    • 고정 필드 및 메타데이터(스키마 포함)가 정의되지 않음
    • Crawler, API, RSS 등의 수집 기술을 활용
    • 텍스트문서, 이진파일, 이미지, 동영상 등

 

ㅇ 데이터 지식경영

구분 설명 상호작용
암묵지 - 학습과 경형을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식
- 사회적으로 중요하지만 다른 사람에게 공유되기 어려움
수영, 태권도
공통화
내면화
형식지 - 문서나 메뉴얼처럼 형상화된 지식
- 전달과 공유가 용이
수험서, 소프트웨어 설치 메뉴얼
표출화
연결화
  •  상호작용
    • 내면화 : 행동과 실천통해 형식지가 개인의 암묵지로 체화되는 단계
    • 공통화 : 다른 사람과의 대화 등 상호작용을 통해 개인이 암묵지를 습득하는 단계
    • 표출화 : 형식지 요소 중의 하나이며, 개인에게 내재된 경험을 객관적인 데이터인 문서나 매체로 저장하거나 분석 (문서화)
    • 연결화 : 형식지가 상호결합하면서 새로운 형식지를 창출하는 과정

 

ㅇ 빅데이터의 가치

  • 경제적 자산
  • 불확실성 제거
  • 리스크 감소
  • 스마트한 경쟁력
  • 타 분야 융합

ㅇ 빅데이터 가치 산정 어려운 이유

  • 데이터 활용 방식의 다양화
  • 새로운 가치 창출
  • 분석기술의 급속한 발전

ㅇ 빅데이터 영향

빅데이터 가치를 활용함으로써 기업, 정부, 개인이 스마트해지고 있다.

대상 영향 설명
기업 - 혁신 수단 제공
- 경쟁력 강화
- 생산성 향상
- 소비자의 행동을 분석하고, 시장 변동을 예측해서 비즈니스 모델을 혁신하거나 신사업을 발굴
- 원가절감, 제품 차별화, 기업 활동의 투명성 제고 등을 활용하여 경쟁사보다 경쟁 우위를 확보
정부 - 환경 탐색
- 상황 분석
- 미래 대응 가능
- 날씨, 교통 등 통계 데이터를 수집해 사회 변화를 추정하고 각종 재해 관련 정보를 추출
- 사회관계망 분석, 시스템 다이내믹스와 같은 분석 방식을 통해 미래 의제 도출
개인 - 목적에 따른 활용 - 빅데이터 서비스를 저렴한 비용으로 활용
- 적시에 필요한 정보를 습득

 

 

ㅇ 빅데이터 위기요인 및 통제 방안

  • 빅데이터는 유용한 가치를 주는 동시에 부정적인 영향을 줄 수 있다.
  • 부정적인 영향으로 인해 위기가 발생하므로 이를 극복하기 위한 통제방안 필요

  • 위기요인
    • 사생활 침해
    • 책임 원칙 훼손
    • 데이터 오용
  • 통제 방안
    • 알고리즘에 대한 접근 허용
    • 책임의 강조
    • 결과 기반의 책임 적용

 

ㅇ 빅데이터 조직 및 인력

빅데이터 조직 구조 유형
- 빅데이터 조직 구조의 유형은 집중 구조, 기능 구조, 분산 구조가 있다.

  • 집중 구조
    • 전사 분석 업무를 별도의 분석 전담 조직에서 담당
    • 전략적 중요도에 따라 분석조직이 우선순위를 정해서 진행 가능
    • 현업 업무부서의 분석 업무와 중복 및 이원화 가능성이 높음
  • 기능 구조
    • 별도 분석조직이 없고 해당 부서에서 분석 수행
    • 전사적 핵심 분석이 어려우며, 과거에 국한된 분석 수행
  • 분산 구조
    • 분석조직 인력들을 현업 부서로 직접 배치해 분석 업무를 수행
    • 전사 차원의 우선순위 수행
    • 분석 결과에 따른 신속한 피드백이 나오고 베스트 프랙티스 공유가 가능
    • 업무 과다와 이원화 가능성이 존재할 수 있기에 부서 분석 업무와 역할 분담이 명확해야 함

 

ㅇ 데이터 사이언티스트 요구역량

구분 스킬 설명
소프트 스킬
(Soft Skill)
분석의 통찰력 논리적인 비판, 창의적 사고력, 호기심
여러 분야의 협업 능력 커뮤니케이션
설득력 있는 전달 스토리텔링 능력, 비주얼라이제이션
하드 스킬
(Hard Skill)
빅데이터 관련 이론적 지식 빅데이터 관련 기법 및 다양한 방법론 습득
분석기술의 숙련도 목적에 맞는 최적 분석 설계, 노하우 축적

 

ㅇ 빅데이터 플랫폼

1. 빅데이터 플랫폼의 개념
- 빅데이터에서 가치를 추출하기 위한 일련의 과정 ( 수집 -> 저장 -> 처리 -> 분석 -> 시각화 ) 을 규격화한 기술이다.
- 특화된 분석(의료, 환경, 범죄, 자동차 등)을 지원하는 빅데이터 플랫폼이 발전하는 추세이다.

빅데이터 분석 플랫폼

 

빅데이터 플랫폼 구성요소

구성요소 주요 기능
데이터 수집 - 원천 데이터의 정형 / 반정형 / 비정형 데이터 수집
- ETL, 크롤러, EAI
데이터 저장 - 정형, 반정형, 비정형 데이터 저장
- RDBMS, NoSQL
데이터 분석 - 텍스트 분석, 머신러닝, 통계, 데이터 마이닝
- SNS 분석, 예측 분석 등
데이터 활용 - 데이터 가시화 및 BI, Open API 연계
- 히스토그램, 인포그래픽

 

빅데이터 플랫폼 데이터 형식
HTML, XML, JSON, CSV

 

ㅇ 빅데이터 플랫폼 구축 소프트웨어

소프트웨어 핵심 목적
R 빅데이터 분석 - 통계 프로그래밍 언어인 S언어를 기반으로 만들어진 오픈소스 프로그래밍 언어
- 다양한 그래프 패키지들을 통하여 강력한 시각화 기능 제공
우지(Oozie) 워크플로우 관리 - 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템(스케줄링 / 모니터링)
- 맵리듀스나 피그와 같은 특화된 액션들로 구성된 워크플로우 제어
플럼(Flume) 데이터 수집 - 이벤트와 에이전트를 활용하여 많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동
HBase 분산 데이터 베이스 - 컬럼 기반 저장소로 HDFS와 인터페이스 제공
스쿱(Sqoop) 정형 데이터 수집 - SQL to Haddop 의 약자
- 커넥터를 사용하여 RDBMS -> HDFS 으로 데이터를 수집하거나, HDFS -> RDBMS 로 데이터를 보내는 기능 수행

 

ㅇ 분산 컴퓨팅 환경 소프트웨어 구성요소

 

구분 주요 특징
맵리듀스
(Map Reduce)
- key value 형태의 데이터 처리
- 맵(Map) -> 셔플(Shuffle) -> 리듀스(Reduce) 순서대로 데이터 처리

맵 : 키밸류형태로 데이터 취합
셔플 : 데이터를 통합하여 처리
리듀스 : 맵 처리된 데이터를 정리

(YARN)
- 하둡의 맵리듀스 처리 부분을 새롭게 만든 자원 관리 플랫폼
- 리소스 매니저(Master)와 노드 매니저(Salve)로 구성
아파치 스파크
(Apache Spark)
- 하둡 기반 대규모 데이터 분산처리시스템
- 스트리밍 데이터, 온라인 러닝머신 등 실시간 데이터 처리
- 스칼라, 자바, 파이썬, R 등에 사용 가능
하둡 분산 파일 시스템
(HDFS)
- Hadoop Distributed File System의 약자
- 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산파일 시스템
- 네임 노드(Master)와 데이터 노드(Salve)로 구성

네임노드 : 파일이름, 권한 등의 속성 기록
마스터노드 : 일정한 크기로 나눈 블록 형태로 저장
아파치 하둡
(Apache Hadoop)
- 분산 파일 시스템(HDFS) 과 맵리듀스를 중심으로 다양한 프로그램으로 구성된 하둡 eco system을 가짐
- 클라우드 플랫폼 위에서 클러스터를 구성해 데이터 분석

Spark, Hive, YARN, Cassandra, Pig 등

 

ㅇ 하둡 에코시스템 (Hadoop Ecosystem)

  • 하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임이다.
  • 하둡 에코시스템은 수집, 저장, 처리 기술과 분석, 실시간 및 시각화를 위한 기술로 구분할 수 있다.

하둡 에코시스템

 

ㅇ 하둡 에코시스템 수집, 저장, 처리 기술

구분 기술 설명
비정형
데이터 수집
척와
(Chukwa)
- 분산된 각 서버에서 에이전트를 실행하고, 컬렉터가 에이전트로부터 데이터를 받아 HDFS에 저장
플럼
(Flume)
- 많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동하기 위해 이벤트와 에이전트를 활용하는 기술
스크라이브
(Scribe)
- 최종 데이터는 HDFS 외에 다양한 저장소를 활용 가능
- HDFS에 저장하기위해서는 JNI 이용
- 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 저장하는 대용량 실시간 로그 수집 기술
정형
데이터 수집
스쿱
(Sqoop)
- 대용량 데이터 전송 솔루션
- 커넥터를 사용하여 RDBMS -> HDFS 으로 데이터 수집 (반대 가능)
- Oracle, MS-SQL, MySQL 과 같은 오픈소스 및 상용소스 RDBMS 지원
히호
(Hiho)
- 스쿱과 같은 대용량 데이터 전송 솔루션이며, 현재 깃허브에서 공개되어 있음
- 하둡에서 데이터를 가져오기 위한 SQL을 지정할 수 있으며, JDBC 인터페이스 지원
- 현재는 오라클, MySQL 의 데이터만 전송 지원
분산 데이터
저장
HDFS - 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할수있게하는 분산파일시스템
- 범용 하드웨어 기반, 클러스터에서 실행되고 데이터 접근 패턴을 스트리밍 방식으로 지원
- 다중 복제, 대량 파일 저장, 온라인 변경, 범용서버 기반, 자동복구 특징이 있음
분산 데이터
처리
맵리듀스
(Map Reduce)
- 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어짐
- 모든 데이터를 키값 쌍으로 구성, 데이터를 분류
분산 데이터
베이스
HBase - 컬럼 기반 저장소로 HDFS와 인터페이스 제공
- 실시간 랜덤 조회 및 업데이트를 할 수 있으며, 각 프로세스는 개인의 데이터를 비동기적으로 업데이트

 

ㅇ 하둡 에코 시스템 데이터 가공 및 분석, 관리를 위한 주요 기술

구분 기술 설명
데이터 가공 피그
(Pig)
- 맵 리듀스 API를 매우 단순화 시키고, SQL과 유사한 형태로 설계됨
- SQL과 유사하기만 할 뿐, 기존 SQL 지식을 활용하는 것이 어려움
- 대용량 데이터 집합을 분석하기 위한 플랫폼으로 하둡을 이용하여 맵리듀스를 사용하기 위한 높은 수준의 스크립트 언어인 피그 라틴이라는 자체 언어를 제공
하이브
(Hive)
- 하둡 기반의 DW 솔루션
- SQL과 매우 유사한 HiveQL 이라는 쿼리를 제공
- HiveQL 은 내부적으로 맵리듀스로 변환되어 실행됨
데이터
마이닝
머하웃
(Mahout)
- 하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈 소스
- 분류, 클러스터링, 추천 및 협업 필터링, 패턴 마이닝, 회귀 분석, 등 알고리즘 등 주요 알고리즘 지원
실시간
SQL 질의
임팔라
(Impala)
- 하둡 기반의 실시간 SQL 질의 시스템
- 데이터 조회를 위한 인터페이스로 HiveQL 사용
- 수초 내의 SQL 질의 결과를 확인할 수 있으며, HBase 와 연동 가능
워크플로우
관리
우지
(Oozie)
- 하둡 작업을 관리하는 워크플로우 및 코디테이터 시스템
- 자바 서블릿 컨테이너에서 실행되는 자바 웹 애플리케이션 서버
- 맵리듀스나 피그와 같은 특화된 액션들로 구성된 워크플로우 제어
- Airflow 와 비슷?
분산
코디네이션
주키퍼
(Zookeeper)
- 분산 환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스를 제공
- 하나의 서버에만 서비스가 집중되지 않도록 서비스를 알맞게 분산하여 동시에 처리
- 하나의 서버에서 처리한 결과를 다른 서버들과도 동기화하여 데이터의 안정성을 보장

 

'TIL > 빅데이터 분석기사' 카테고리의 다른 글

01_빅데이터 분석 기획 (4)  (0) 2020.12.17
01_빅데이터 분석 기획 (3)  (0) 2020.12.16
01_빅데이터 분석 기획 (2)  (0) 2020.12.15

댓글