1. 빅데이터의 이해
(1) 빅데이터 특징 개요 및 활용
ㅇ 빅데이터 개념
- 빅데이터는 막대한양(수십 테라바이트 이상)의 정형 및 비정형 데이터이다.
- 데이터로부터 가치 추출, 결과를 분석하는 기술의 의미
- DIKW 피라미드
피라미드 요소 | 설명 |
데이터(Data) | 객관적 사실로서 다른 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호 예) 수제비 책을 A사이트에서 30,000원, B사이트에서 35,000원에 판매 |
정보(information) | 가공, 처리하여 데이터 간의 연관 관계와 함께 의미가 도출된 데이터 예) 수제비 책은 A사이트에서 더 싸게 판매 |
지식(Knowledge) | 획득한 다양한 정보를 구조화하여 유의미한 정보로 분류하고 일반화시킨 결과 정보에 기반해 찾아진 규칙 예) A사이트가 더 싸게 팔기 때문에 수제비 책을 구입할 계획 |
지혜(Wisdom) | 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어 상황이나 맥락에 맞게 규칙을 적용하는 요소 A사이트의 다른 상품들도 B사이트보다 저렴할 것으로 판단 |
ㅇ 데이터의 크기
기호 | 이름 | 값 |
KB | 킬로바이트 | 103Bytes |
MB | 메가바이트 | 106Bytes |
GB | 기가 | 109Bytes |
TB | 테라 | 1012Bytes |
PB | 페타 | 1015Bytes |
EB | 엑사 | 1018Bytes |
ZY | 제타 | 1021Bytes |
YB | 요타 | 1024Bytes |
ㅇ 빅데이터 특징
- 3V
- Volume 규모
- Variety 다양성
- Velocity 속도 - 5V
- Veracity 신뢰성
- Value 가치 - 7V
- Validity 정확성
- Volatility 휘발성
ㅇ 빅데이터 유형
- 정형
- 정형화된 스키마 구조. DBMS에 내용이 저장될 수 있는 구조
- 고정된 필드(속성)에 저장된 데이터
- 관계형 데이터베이스(Oracle, MS-SQL, 등)
- 반정형
- 데이터 내부의 데이터 구조에 대한 메타 정보가 포함된 구조
- 고정된 필드ㅔㅇ 저장되어 있지만, 메타데이터나 데이터 스키마 정보를 포함하는 데이터
- XML, HTML, JSON, 등
- 비정형
- 수집 데이터 각각이 데이터 객체로 구분
- 고정 필드 및 메타데이터(스키마 포함)가 정의되지 않음
- Crawler, API, RSS 등의 수집 기술을 활용
- 텍스트문서, 이진파일, 이미지, 동영상 등
ㅇ 데이터 지식경영
구분 | 설명 | 상호작용 |
암묵지 | - 학습과 경형을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식 - 사회적으로 중요하지만 다른 사람에게 공유되기 어려움 수영, 태권도 |
공통화 내면화 |
형식지 | - 문서나 메뉴얼처럼 형상화된 지식 - 전달과 공유가 용이 수험서, 소프트웨어 설치 메뉴얼 |
표출화 연결화 |
- 상호작용
- 내면화 : 행동과 실천통해 형식지가 개인의 암묵지로 체화되는 단계
- 공통화 : 다른 사람과의 대화 등 상호작용을 통해 개인이 암묵지를 습득하는 단계
- 표출화 : 형식지 요소 중의 하나이며, 개인에게 내재된 경험을 객관적인 데이터인 문서나 매체로 저장하거나 분석 (문서화)
- 연결화 : 형식지가 상호결합하면서 새로운 형식지를 창출하는 과정
ㅇ 빅데이터의 가치
- 경제적 자산
- 불확실성 제거
- 리스크 감소
- 스마트한 경쟁력
- 타 분야 융합
ㅇ 빅데이터 가치 산정 어려운 이유
- 데이터 활용 방식의 다양화
- 새로운 가치 창출
- 분석기술의 급속한 발전
ㅇ 빅데이터 영향
빅데이터 가치를 활용함으로써 기업, 정부, 개인이 스마트해지고 있다.
대상 | 영향 | 설명 |
기업 | - 혁신 수단 제공 - 경쟁력 강화 - 생산성 향상 |
- 소비자의 행동을 분석하고, 시장 변동을 예측해서 비즈니스 모델을 혁신하거나 신사업을 발굴 - 원가절감, 제품 차별화, 기업 활동의 투명성 제고 등을 활용하여 경쟁사보다 경쟁 우위를 확보 |
정부 | - 환경 탐색 - 상황 분석 - 미래 대응 가능 |
- 날씨, 교통 등 통계 데이터를 수집해 사회 변화를 추정하고 각종 재해 관련 정보를 추출 - 사회관계망 분석, 시스템 다이내믹스와 같은 분석 방식을 통해 미래 의제 도출 |
개인 | - 목적에 따른 활용 | - 빅데이터 서비스를 저렴한 비용으로 활용 - 적시에 필요한 정보를 습득 |
ㅇ 빅데이터 위기요인 및 통제 방안
- 빅데이터는 유용한 가치를 주는 동시에 부정적인 영향을 줄 수 있다.
- 부정적인 영향으로 인해 위기가 발생하므로 이를 극복하기 위한 통제방안 필요
- 위기요인
- 사생활 침해
- 책임 원칙 훼손
- 데이터 오용
- 통제 방안
- 알고리즘에 대한 접근 허용
- 책임의 강조
- 결과 기반의 책임 적용
ㅇ 빅데이터 조직 및 인력
빅데이터 조직 구조 유형
- 빅데이터 조직 구조의 유형은 집중 구조, 기능 구조, 분산 구조가 있다.
- 집중 구조
- 전사 분석 업무를 별도의 분석 전담 조직에서 담당
- 전략적 중요도에 따라 분석조직이 우선순위를 정해서 진행 가능
- 현업 업무부서의 분석 업무와 중복 및 이원화 가능성이 높음
- 기능 구조
- 별도 분석조직이 없고 해당 부서에서 분석 수행
- 전사적 핵심 분석이 어려우며, 과거에 국한된 분석 수행
- 분산 구조
- 분석조직 인력들을 현업 부서로 직접 배치해 분석 업무를 수행
- 전사 차원의 우선순위 수행
- 분석 결과에 따른 신속한 피드백이 나오고 베스트 프랙티스 공유가 가능
- 업무 과다와 이원화 가능성이 존재할 수 있기에 부서 분석 업무와 역할 분담이 명확해야 함
ㅇ 데이터 사이언티스트 요구역량
구분 | 스킬 | 설명 |
소프트 스킬 (Soft Skill) |
분석의 통찰력 | 논리적인 비판, 창의적 사고력, 호기심 |
여러 분야의 협업 능력 | 커뮤니케이션 | |
설득력 있는 전달 | 스토리텔링 능력, 비주얼라이제이션 | |
하드 스킬 (Hard Skill) |
빅데이터 관련 이론적 지식 | 빅데이터 관련 기법 및 다양한 방법론 습득 |
분석기술의 숙련도 | 목적에 맞는 최적 분석 설계, 노하우 축적 |
ㅇ 빅데이터 플랫폼
1. 빅데이터 플랫폼의 개념
- 빅데이터에서 가치를 추출하기 위한 일련의 과정 ( 수집 -> 저장 -> 처리 -> 분석 -> 시각화 ) 을 규격화한 기술이다.
- 특화된 분석(의료, 환경, 범죄, 자동차 등)을 지원하는 빅데이터 플랫폼이 발전하는 추세이다.
빅데이터 플랫폼 구성요소
구성요소 | 주요 기능 |
데이터 수집 | - 원천 데이터의 정형 / 반정형 / 비정형 데이터 수집 - ETL, 크롤러, EAI 등 |
데이터 저장 | - 정형, 반정형, 비정형 데이터 저장 - RDBMS, NoSQL 등 |
데이터 분석 | - 텍스트 분석, 머신러닝, 통계, 데이터 마이닝 - SNS 분석, 예측 분석 등 |
데이터 활용 | - 데이터 가시화 및 BI, Open API 연계 - 히스토그램, 인포그래픽 등 |
빅데이터 플랫폼 데이터 형식
HTML, XML, JSON, CSV
ㅇ 빅데이터 플랫폼 구축 소프트웨어
소프트웨어 | 핵심 | 목적 |
R | 빅데이터 분석 | - 통계 프로그래밍 언어인 S언어를 기반으로 만들어진 오픈소스 프로그래밍 언어 - 다양한 그래프 패키지들을 통하여 강력한 시각화 기능 제공 |
우지(Oozie) | 워크플로우 관리 | - 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템(스케줄링 / 모니터링) - 맵리듀스나 피그와 같은 특화된 액션들로 구성된 워크플로우 제어 |
플럼(Flume) | 데이터 수집 | - 이벤트와 에이전트를 활용하여 많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동 |
HBase | 분산 데이터 베이스 | - 컬럼 기반 저장소로 HDFS와 인터페이스 제공 |
스쿱(Sqoop) | 정형 데이터 수집 | - SQL to Haddop 의 약자 - 커넥터를 사용하여 RDBMS -> HDFS 으로 데이터를 수집하거나, HDFS -> RDBMS 로 데이터를 보내는 기능 수행 |
ㅇ 분산 컴퓨팅 환경 소프트웨어 구성요소
구분 | 주요 특징 |
맵리듀스 (Map Reduce) |
- key value 형태의 데이터 처리 - 맵(Map) -> 셔플(Shuffle) -> 리듀스(Reduce) 순서대로 데이터 처리 맵 : 키밸류형태로 데이터 취합 셔플 : 데이터를 통합하여 처리 리듀스 : 맵 처리된 데이터를 정리 |
얀 (YARN) |
- 하둡의 맵리듀스 처리 부분을 새롭게 만든 자원 관리 플랫폼 - 리소스 매니저(Master)와 노드 매니저(Salve)로 구성 |
아파치 스파크 (Apache Spark) |
- 하둡 기반 대규모 데이터 분산처리시스템 - 스트리밍 데이터, 온라인 러닝머신 등 실시간 데이터 처리 - 스칼라, 자바, 파이썬, R 등에 사용 가능 |
하둡 분산 파일 시스템 (HDFS) |
- Hadoop Distributed File System의 약자 - 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 하둡 분산파일 시스템 - 네임 노드(Master)와 데이터 노드(Salve)로 구성 네임노드 : 파일이름, 권한 등의 속성 기록 마스터노드 : 일정한 크기로 나눈 블록 형태로 저장 |
아파치 하둡 (Apache Hadoop) |
- 분산 파일 시스템(HDFS) 과 맵리듀스를 중심으로 다양한 프로그램으로 구성된 하둡 eco system을 가짐 - 클라우드 플랫폼 위에서 클러스터를 구성해 데이터 분석 Spark, Hive, YARN, Cassandra, Pig 등 |
ㅇ 하둡 에코시스템 (Hadoop Ecosystem)
- 하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임이다.
- 하둡 에코시스템은 수집, 저장, 처리 기술과 분석, 실시간 및 시각화를 위한 기술로 구분할 수 있다.
ㅇ 하둡 에코시스템 수집, 저장, 처리 기술
구분 | 기술 | 설명 |
비정형 데이터 수집 |
척와 (Chukwa) |
- 분산된 각 서버에서 에이전트를 실행하고, 컬렉터가 에이전트로부터 데이터를 받아 HDFS에 저장 |
플럼 (Flume) |
- 많은 양의 로그 데이터를 효율적으로 수집, 집계, 이동하기 위해 이벤트와 에이전트를 활용하는 기술 | |
스크라이브 (Scribe) |
- 최종 데이터는 HDFS 외에 다양한 저장소를 활용 가능 - HDFS에 저장하기위해서는 JNI 이용 - 다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 저장하는 대용량 실시간 로그 수집 기술 |
|
정형 데이터 수집 |
스쿱 (Sqoop) |
- 대용량 데이터 전송 솔루션 - 커넥터를 사용하여 RDBMS -> HDFS 으로 데이터 수집 (반대 가능) - Oracle, MS-SQL, MySQL 과 같은 오픈소스 및 상용소스 RDBMS 지원 |
히호 (Hiho) |
- 스쿱과 같은 대용량 데이터 전송 솔루션이며, 현재 깃허브에서 공개되어 있음 - 하둡에서 데이터를 가져오기 위한 SQL을 지정할 수 있으며, JDBC 인터페이스 지원 - 현재는 오라클, MySQL 의 데이터만 전송 지원 |
|
분산 데이터 저장 |
HDFS | - 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할수있게하는 분산파일시스템 - 범용 하드웨어 기반, 클러스터에서 실행되고 데이터 접근 패턴을 스트리밍 방식으로 지원 - 다중 복제, 대량 파일 저장, 온라인 변경, 범용서버 기반, 자동복구 특징이 있음 |
분산 데이터 처리 |
맵리듀스 (Map Reduce) |
- 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어짐 - 모든 데이터를 키값 쌍으로 구성, 데이터를 분류 |
분산 데이터 베이스 |
HBase | - 컬럼 기반 저장소로 HDFS와 인터페이스 제공 - 실시간 랜덤 조회 및 업데이트를 할 수 있으며, 각 프로세스는 개인의 데이터를 비동기적으로 업데이트 |
ㅇ 하둡 에코 시스템 데이터 가공 및 분석, 관리를 위한 주요 기술
구분 | 기술 | 설명 |
데이터 가공 | 피그 (Pig) |
- 맵 리듀스 API를 매우 단순화 시키고, SQL과 유사한 형태로 설계됨 - SQL과 유사하기만 할 뿐, 기존 SQL 지식을 활용하는 것이 어려움 - 대용량 데이터 집합을 분석하기 위한 플랫폼으로 하둡을 이용하여 맵리듀스를 사용하기 위한 높은 수준의 스크립트 언어인 피그 라틴이라는 자체 언어를 제공 |
하이브 (Hive) |
- 하둡 기반의 DW 솔루션 - SQL과 매우 유사한 HiveQL 이라는 쿼리를 제공 - HiveQL 은 내부적으로 맵리듀스로 변환되어 실행됨 |
|
데이터 마이닝 |
머하웃 (Mahout) |
- 하둡 기반으로 데이터 마이닝 알고리즘을 구현한 오픈 소스 - 분류, 클러스터링, 추천 및 협업 필터링, 패턴 마이닝, 회귀 분석, 등 알고리즘 등 주요 알고리즘 지원 |
실시간 SQL 질의 |
임팔라 (Impala) |
- 하둡 기반의 실시간 SQL 질의 시스템 - 데이터 조회를 위한 인터페이스로 HiveQL 사용 - 수초 내의 SQL 질의 결과를 확인할 수 있으며, HBase 와 연동 가능 |
워크플로우 관리 |
우지 (Oozie) |
- 하둡 작업을 관리하는 워크플로우 및 코디테이터 시스템 - 자바 서블릿 컨테이너에서 실행되는 자바 웹 애플리케이션 서버 - 맵리듀스나 피그와 같은 특화된 액션들로 구성된 워크플로우 제어 - Airflow 와 비슷? |
분산 코디네이션 |
주키퍼 (Zookeeper) |
- 분산 환경에서 서버들 간에 상호 조정이 필요한 다양한 서비스를 제공 - 하나의 서버에만 서비스가 집중되지 않도록 서비스를 알맞게 분산하여 동시에 처리 - 하나의 서버에서 처리한 결과를 다른 서버들과도 동기화하여 데이터의 안정성을 보장 |
'TIL > 빅데이터 분석기사' 카테고리의 다른 글
01_빅데이터 분석 기획 (4) (0) | 2020.12.17 |
---|---|
01_빅데이터 분석 기획 (3) (0) | 2020.12.16 |
01_빅데이터 분석 기획 (2) (0) | 2020.12.15 |
댓글