본문 바로가기
  • 기억보단 기록을..
TIL/빅데이터 분석기사

01_빅데이터 분석 기획 (2)

by reine94._.dev 2020. 12. 15.

 

  • 분산 컴퓨팅 환경 소프트웨어 구성요소
    • Map Reduce
    • Yarn
    • Spark
    • HDFS
    • Hadoop
  • Hadoop Ecosystem
    • Sqoop : 정형데이터를 수집하는 대용량 데이터 전송 솔루션
    • HDFS : 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 HDFS
    • Map Reduce : 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어짐
    • HBase : 컬럼 기반 저장소로 HDFS와 인터페이스 제공
데이터 가공 피그(Pig), 하이브(Hive)
데이터 마이닝 머하웃(Mahout)
실시간 SQL 질의 임팔라(Impala)
워크플로우 관리 우지(Oozie)
분산 코디네이션 주키퍼(Zookeeper)

임팔라
  - 하둡 기반의 실시간 SQL 질의 시스템이다.
  - 데이터 조회를 위한 인터페이스로 HiveQL을 사용한다.
  - HBase와 연동된다.
  - 수초 내에 SQL 질의 결과를 확인할 수 있다.

ㅇ 개인정보 비식별화
  사전검토 -> 비식별조치 -> 적정성 평가 -> 사후관리

  • 가명처리 - 개인 식별 정보에 대하여 전체 또는 부분적으로 대체 값으로 변환
  • 총계처리 - 개인정보에 대하여 통계값을 적용하여 특정 개인을 판단할 수 없도록 하는 기법
  • 데이터값 삭제 - 개인정보 식별이 가능한 특정 데이터값 삭제 처리
  • 범주화 - 단일 식별 정보를 해당 그룹의 대표값으로 변환
가명처리 장길산, 20세, 인천 거주, 미래대 재학
=> 김식별, 20대, 인천 거주, 외국대 재학
총계처리 장길정 160cm, 김식별 150cm, 김콩쥐 170cm, 장길산 150cm
=> 물리학과 학생 키 합 : 630cm, 평균 키 158cm
데이터
삭제
주민등록번호 801212-1234567
=> 80년대 생, 남자, 개인과 관련된 날짜 정보(합격일 등)(는 연 단위로 처리
데이터
범주화
장길산, 41세
=> 장 씨, 40~50세
데이터
마스킹
장길산, 41세, 서울 거주, 미래대학 재학
=> 장○○, 41세, 서울 거주, ○대학재학

 


데이터 분석 계획

ㅇ 분석문제 정의

GAP을 해결하는 것이 문제해결

 

  • 하향식 접근 방식(Top Down Approach) 개념
    • 분석 과제가 정해져 있고 이에 대한 해법을 찾기 위해 체계적으로 분석하는 방법
    • 문제 탐색, 문제 정의, 해결방안 탐색, 타당성 검토. 선택 과정을 거쳐 과제를 발굴한다.
  • 상향식 접근 방식(Bottom Up Approach) 개념
    • 문제 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식이다.
    • 하향식 접근법의 한계를 극복하기 위한 분석방법론
    • 디자인 사고 접근법을 사용하여 객관적인 데이터 그 자체를 관찰하고 실제적으로
      행동에 옮겨 대상을 이해하는 방식을 적용한다.
    • 특징
      • 비지도 학습 방법 사용
      • 프로토타이핑 접근법 사용

 

ㅇ 대상별 분석 기획 유형

 

분석대상을 모를땐 '통찰'

 

  • 데이터 분석 방법론 구성요소
    • 절차
    • 방법
    • 도구와 기법
    • 템플릿과 산출물
  • 데이터 분석 방법론 계층
    • 단계
    • 태스크
    • 스텝
  • 데이터 분석 방법론 분석 절차
    • 분석 기획
    • 데이터 준비
    • 데이터 분석
    • 시스템 구현
    • 평가 및 전개

 

ㅇ분석 방법론 유형 (3가지)

  • KDD분석 방법론
    • 프로파일링 기술기반으로 통계적 패턴이나 지식을 찾기위해 체계적으로 정리한 방법론
    • 분석 절차
      • 데이트 세트 선택
      • 데이터 전처리
      • 데이터 변환 
      • 데이터 마이닝
      • 데이터 마이닝 결과 평가
  • CRISP_DM 분석 방법론
    • 비즈니스의 이해를 바탕으로 데이터 분석 목적의 6단계로 진행되는 데이터 마이닝 방법론이다.
    • 유럽연합 프로젝트에서 시작한 방법론
    • 구성
      • 단계
      • 일반화 태스크
      • 세분화 태스크
      • 프로세스 실행
    • 분석 절차
      • 업무 이해
      • 데이터 이해
      • 데이터 준비
      • 모델링
      • 평가
      • 전개
  • SEMMA 분석 방법론
    • SAS사가 주도한 통계 중심
    • 샘플링 -> 탐색 -> 수정 -> 모델링 -> 검증

'TIL > 빅데이터 분석기사' 카테고리의 다른 글

01_빅데이터 분석 기획 (4)  (0) 2020.12.17
01_빅데이터 분석 기획 (3)  (0) 2020.12.16
01_빅데이터 분석 기획 (1)  (0) 2020.12.13

댓글