본문 바로가기
  • 기억보단 기록을..

TIL/빅데이터 분석기사4

01_빅데이터 분석 기획 (4) 데이터 수집 및 저장 계획 1. 데이터 수집 및 전환 데이터 처리 기술 필터링, 변환, 정제, 통합, 축소 (1) 데이터 수집 정형데이터 정형 데이터 수집에 대한 수집 방식과 기술에는 ETL, FTP, API, DBToDB, Rsync, Sqoop(스쿱)이 있다. 수집 방식 및 기술 설명 ETL - Extract (추출) Transform (변환) Load (적재) - 수집 대상 데이터를 추출, 가공(변환,정제)하여 데이터 웨어하우스 및 데이터마트에 저장하는 기술 FTP - File Transfer Protocol - 시스템 간 파일 공유 서버클라이언트 모델로 TCP/IP 기반 파일 송수신하는 응용계층 프로토콜 - 최근 서버와 클라이언트 사이 파일 전송시 보안 강화위해 SSH(Secure Shell) 적.. 2020. 12. 17.
01_빅데이터 분석 기획 (3) 분석 과제 발굴 방식 하향식 접근 문제가 주어지고 이에 대한 해법 찾기 위해 각 과정이 체계적으로 단계화 상향식 접근 데이터 자체를 관찰하고, 실제적으로 행동에 롬겨 대상을 이해하는 방식 프로토타이핑, 디자인 사고 접근법 사용 더보기 ㅇ 프로토타이핑 신속하게 해결책이나 모형 제시함으로써, 이를 바탕으로 문제를 좀 더 명확하게 인식하고 피요한 데이터를 식별하여 구체화 가능 ㅇ 디자인 사고 인간에 대한 관찰과 공감 바탕으로 다양한 대안 찾는 확산적 사고와 주어진 상황에 대한 최선의 방법을 찾는 수렴적 사고의 반복을 통해 과제 발굴하는 상향식 접근방법 빅데이터 분석 방법론 분석기획 단계 프로젝트 위험 대응 방법 회피 전가 완화 수용 주요 과업 비즈니스 이해 및 범위 설정 프로젝트 정의 및 계획수립 프로젝트 위.. 2020. 12. 16.
01_빅데이터 분석 기획 (2) 분산 컴퓨팅 환경 소프트웨어 구성요소 Map Reduce Yarn Spark HDFS Hadoop Hadoop Ecosystem Sqoop : 정형데이터를 수집하는 대용량 데이터 전송 솔루션 HDFS : 대용량 파일을 분산된 서버에 저장하고, 그 저장된 데이터를 빠르게 처리할 수 있게 하는 HDFS Map Reduce : 대용량 데이터 세트를 분산 병렬 컴퓨팅에서 처리하거나 생성하기 위한 목적으로 만들어짐 HBase : 컬럼 기반 저장소로 HDFS와 인터페이스 제공 데이터 가공 피그(Pig), 하이브(Hive) 데이터 마이닝 머하웃(Mahout) 실시간 SQL 질의 임팔라(Impala) 워크플로우 관리 우지(Oozie) 분산 코디네이션 주키퍼(Zookeeper) 임팔라 - 하둡 기반의 실시간 SQL 질의.. 2020. 12. 15.
01_빅데이터 분석 기획 (1) 1. 빅데이터의 이해 (1) 빅데이터 특징 개요 및 활용 ㅇ 빅데이터 개념 빅데이터는 막대한양(수십 테라바이트 이상)의 정형 및 비정형 데이터이다. 데이터로부터 가치 추출, 결과를 분석하는 기술의 의미 DIKW 피라미드 피라미드 요소 설명 데이터(Data) 객관적 사실로서 다른 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호 예) 수제비 책을 A사이트에서 30,000원, B사이트에서 35,000원에 판매 정보(information) 가공, 처리하여 데이터 간의 연관 관계와 함께 의미가 도출된 데이터 예) 수제비 책은 A사이트에서 더 싸게 판매 지식(Knowledge) 획득한 다양한 정보를 구조화하여 유의미한 정보로 분류하고 일반화시킨 결과 정보에 기반해 찾아진 규칙 예) A사이트가 더 싸게 .. 2020. 12. 13.