본문 바로가기
  • 기억보단 기록을..
TIL/빅데이터 분석기사

01_빅데이터 분석 기획 (4)

by reine94._.dev 2020. 12. 17.

데이터 수집 및 저장 계획


1. 데이터 수집 및 전환

  • 데이터 처리 기술
    • 필터링, 변환, 정제, 통합, 축소

 

(1) 데이터 수집

  • 정형데이터
    • 정형 데이터 수집에 대한 수집 방식과 기술에는 ETL, FTP, API, DBToDB, Rsync, Sqoop(스쿱)이 있다.
수집 방식 및 기술 설명
ETL - Extract (추출) Transform (변환) Load (적재)
- 수집 대상 데이터를 추출, 가공(변환,정제)하여 데이터 웨어하우스 및 데이터마트에 저장하는 기술
FTP - File Transfer Protocol
- 시스템 간 파일 공유 서버클라이언트 모델로 TCP/IP 기반 파일 송수신하는 응용계층 프로토콜
- 최근 서버와 클라이언트 사이 파일 전송시 보안 강화위해 SSH(Secure Shell) 적용한 SFTP 사용권고
- 20, 21번 포트 번호 사용
API - Application Programming Interface
- 시스템 간 연동을 통해 실시간으로 데이터를 수신할 수 있는 기능을 제공하는 인터페이스 기술
DBtoDB - DB시스템 간 데이터를 동기화하거나 전송하는 기술 제공
Rsync
(Remote Sync)
- 서버클라이언트 방식으로 수집 대상 시스템과 1:1로 파일과 디렉토리 동기화하는 기술
스쿱(Sqoop) - 커넥터(Connector)를 사용하여 RDB와 하둡(hadoop) 간 데이터 전송 기능을 제공하는 기술
- Sqoop은 모든 적재 과정을 자동화하고 병철 처리 방식으로 작업
하둡(hadoop)
  - 대용량 데이터 분산처리할 수 있는 자바 기반 오픈소스 프레임워크
  - 하둡은 HDFS에 데이터를 저장
  - 분산처리시스템인 Map Reduce 를 이용해 데이터를 처리

 

ㅂSqoop 구성도

 

  • 비정형 데이터
    • 비정형 데이터 수집방식과 기술에는 크롤링, RSS, Open API, 스크래파이, Apache kafka 등이 있다.
수집 방식 및 기술 설명
크롤링
(Crawling)
인터넷상에서 제공되는 다양한 앱 사이트로부터 소셜 네트워크 정보, 뉴스, 게시판 등의
문서 및 콘텐츠 수집 기술
RSS
(Rich Site Summary)
블로그, 뉴스, 쇼핑몰 등 웹 사이트에 게시된 새로운 글을 공유하기 위해 XML기반으로 정보를 배포하는 프로토콜을 활용하여 데이터를 수집하는 기술
Open API 응용프로그램을 통해 실시간으로 데이터를 수신할 수 있도록
공개된 API를 이용하여 데이터를 수집
스크래파이
(Scrapy)
웹 사이트를 크롤링하여 구조화된 데이터를 수집하는 파이썬(python) 기반의 앱프레임워크로서
데이터 마이닝, 정보처리, 이력 기록 같은 다양한 애플리케이션에 사용되는 수집 기술
아파치 카프카
(Apache Kafka)
대용량 실시간 로그 처리를 위해 기존 메시징 시스템과 유사하게 레코드 스트림을 발행(Publish)
구독(Scriber)하는 방식의 분산 스트리밍 플랫폼 기술

 

  • 반정형 데이터
    • 반정형 데이터 수집방식과 기술에는 센싱, 스트리밍, 플럼, 스크라이브, 척와 등이 있다.
수집 방식 및 기술 설명
센싱
(Sensing)
센서로부터 수집 및 생성된 데이터를 네트워크를 통해 수집 및 활용
스트리밍
(Streaming)
네트워크를 통해 센서 데이터 및 오디오, 비디오 등의 미디어 데이터를 실시간으로 수집하는 기술
플럼
(Flume)
스트리밍 데이터 흐름(Data Flow)을 비동기 방식으로 처리하는 분산형 로그 수집 기술
스크라이브
(Scribe)
다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술
척와
(Chukwa)
대규모 분산 시스템 모니터링을 위해 에이전트(Agent)와 컬렉터(Collector) 구성을 통해 데이터를 수집

수집된 데이터를 하둡 파일 시스템(HDFS)에 저장하는 기능을 제공하는 데이터 수집 기술

 

(2) 데이터 유형 및 속성

데이터 유형

  • 구조 관점
    • 정형 데이터
    • 비정형 데이터
    • 반정형 데이터
  • 시간 관점
    • 실시간 데이터
    • 비실시간 데이터
  • 저장 형태 관점
    • 파일 데이터
    • 데이터베이스 데이터
    • 콘텐츠 데이터
    • 스트림 데이터

데이터 속성

  • 형태에 따른 분류
    • 정성적 데이터 : 언어, 문자, 기업 매출이 증가함, 저장/검색/분석에 많은 비용 소모
    • 정량적 데이터 : 수치, 도형, 기호 키, 생일, 주가 등, 정형화가 된 데이터로 비용 소모가 적음
  • 데이터 속성
    • 범주형
      • 순서형
      • 명목형
    • 수치형
      • 연속형
      • 이산형
구분 종류 설명
범주형 명목형 명사형, 변수 크기 순서 상관없음
ex) 남=1 / 여=2
순서형 변수가 어떤 기준에 따라 순서에 의미를 부여
ex) 병원수준(의원=1, 종합병원=2, 대학병원=3) 
수치형 이산형 하나하나 셀 수 있는 경우
ex) 문 개수, 시험문제 틀린갯수, 대리점 방문횟수
연속형 변수가 구간 안의 모든 값을 가질 수 있는 경우
ex) 노인들의 키, 몸무게

 

  • 데이터 속성에 대한 측정 척도
    • 명목 척도
      • 관측 대상 임의 범주로 분류한 후 기호나 숫자 부여
      • 분류의 수치화이고, 척도 값이 분류의 의미만 가짐
    • 서열 척도/순위 척도
      • 여러 관측 대상을 임의의 기준에 따라 상대적인 비교 및 순위화
    • 등간 척도/간격 척도
      • 동일 간격화로 크기 간의 차이를 비교할 수 있음
    • 비율 척도
      • 절대 영점이 있고, 비율 계산 가능
      • 나이, 키, 금액, 거리, 넓이, 소득 , 부피 등
● 속성 값들을 연산했을 때 그 결과가 의미가 있으면 비율 척도이고, 의미 없으면 등간척도 이다.
● 등간 척도 '온도'
      20도 + 20도 = 40도 덧셈의미 없음

● 비율 척도
      100g * 2 = 200g 은 상대적으로 질량이 2배만큼 큰 질량 ( 의미있음 )

 

 

'TIL > 빅데이터 분석기사' 카테고리의 다른 글

01_빅데이터 분석 기획 (3)  (0) 2020.12.16
01_빅데이터 분석 기획 (2)  (0) 2020.12.15
01_빅데이터 분석 기획 (1)  (0) 2020.12.13

댓글