- 분산 컴퓨팅 환경 소프트웨어 구성요소
- Map Reduce
- Yarn
- Spark
- HDFS
- Hadoop
- Hadoop Ecosystem
- Sqoop : 정형데이터를 수집하는 대용량 데이터 전송 솔루션
- HDFS : 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 HDFS
- Map Reduce : 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어짐
- HBase : 컬럼 기반 저장소로 HDFS와 인터페이스 제공
데이터 가공 | 피그(Pig), 하이브(Hive) |
데이터 마이닝 | 머하웃(Mahout) |
실시간 SQL 질의 | 임팔라(Impala) |
워크플로우 관리 | 우지(Oozie) |
분산 코디네이션 | 주키퍼(Zookeeper) |
임팔라
- 하둡 기반의 실시간 SQL 질의 시스템이다.
- 데이터 조회를 위한 인터페이스로 HiveQL을 사용한다.
- HBase와 연동된다.
- 수초 내에 SQL 질의 결과를 확인할 수 있다.
ㅇ 개인정보 비식별화
사전검토 -> 비식별조치 -> 적정성 평가 -> 사후관리
- 가명처리 - 개인 식별 정보에 대하여 전체 또는 부분적으로 대체 값으로 변환
- 총계처리 - 개인정보에 대하여 통계값을 적용하여 특정 개인을 판단할 수 없도록 하는 기법
- 데이터값 삭제 - 개인정보 식별이 가능한 특정 데이터값 삭제 처리
- 범주화 - 단일 식별 정보를 해당 그룹의 대표값으로 변환
가명처리 | 장길산, 20세, 인천 거주, 미래대 재학 => 김식별, 20대, 인천 거주, 외국대 재학 |
총계처리 | 장길정 160cm, 김식별 150cm, 김콩쥐 170cm, 장길산 150cm => 물리학과 학생 키 합 : 630cm, 평균 키 158cm |
데이터 삭제 |
주민등록번호 801212-1234567 => 80년대 생, 남자, 개인과 관련된 날짜 정보(합격일 등)(는 연 단위로 처리 |
데이터 범주화 |
장길산, 41세 => 장 씨, 40~50세 |
데이터 마스킹 |
장길산, 41세, 서울 거주, 미래대학 재학 => 장○○, 41세, 서울 거주, ○○대학재학 |
데이터 분석 계획
ㅇ 분석문제 정의
- 하향식 접근 방식(Top Down Approach) 개념
- 분석 과제가 정해져 있고 이에 대한 해법을 찾기 위해 체계적으로 분석하는 방법
- 문제 탐색, 문제 정의, 해결방안 탐색, 타당성 검토. 선택 과정을 거쳐 과제를 발굴한다.
- 상향식 접근 방식(Bottom Up Approach) 개념
- 문제 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식이다.
- 하향식 접근법의 한계를 극복하기 위한 분석방법론
- 디자인 사고 접근법을 사용하여 객관적인 데이터 그 자체를 관찰하고 실제적으로
행동에 옮겨 대상을 이해하는 방식을 적용한다. - 특징
- 비지도 학습 방법 사용
- 프로토타이핑 접근법 사용
ㅇ 대상별 분석 기획 유형
분석대상을 모를땐 '통찰'
- 데이터 분석 방법론 구성요소
- 절차
- 방법
- 도구와 기법
- 템플릿과 산출물
- 데이터 분석 방법론 계층
- 단계
- 태스크
- 스텝
- 데이터 분석 방법론 분석 절차
- 분석 기획
- 데이터 준비
- 데이터 분석
- 시스템 구현
- 평가 및 전개
ㅇ분석 방법론 유형 (3가지)
- KDD분석 방법론
- 프로파일링 기술기반으로 통계적 패턴이나 지식을 찾기위해 체계적으로 정리한 방법론
- 분석 절차
- 데이트 세트 선택
- 데이터 전처리
- 데이터 변환
- 데이터 마이닝
- 데이터 마이닝 결과 평가
- CRISP_DM 분석 방법론
- 비즈니스의 이해를 바탕으로 데이터 분석 목적의 6단계로 진행되는 데이터 마이닝 방법론이다.
- 유럽연합 프로젝트에서 시작한 방법론
- 구성
- 단계
- 일반화 태스크
- 세분화 태스크
- 프로세스 실행
- 분석 절차
- 업무 이해
- 데이터 이해
- 데이터 준비
- 모델링
- 평가
- 전개
- SEMMA 분석 방법론
- SAS사가 주도한 통계 중심
- 샘플링 -> 탐색 -> 수정 -> 모델링 -> 검증
'TIL > 빅데이터 분석기사' 카테고리의 다른 글
01_빅데이터 분석 기획 (4) (0) | 2020.12.17 |
---|---|
01_빅데이터 분석 기획 (3) (0) | 2020.12.16 |
01_빅데이터 분석 기획 (1) (0) | 2020.12.13 |
댓글