데이터 수집 및 저장 계획
1. 데이터 수집 및 전환
- 데이터 처리 기술
- 필터링, 변환, 정제, 통합, 축소
(1) 데이터 수집
- 정형데이터
- 정형 데이터 수집에 대한 수집 방식과 기술에는 ETL, FTP, API, DBToDB, Rsync, Sqoop(스쿱)이 있다.
수집 방식 및 기술 | 설명 |
ETL | - Extract (추출) Transform (변환) Load (적재) - 수집 대상 데이터를 추출, 가공(변환,정제)하여 데이터 웨어하우스 및 데이터마트에 저장하는 기술 |
FTP | - File Transfer Protocol - 시스템 간 파일 공유 서버클라이언트 모델로 TCP/IP 기반 파일 송수신하는 응용계층 프로토콜 - 최근 서버와 클라이언트 사이 파일 전송시 보안 강화위해 SSH(Secure Shell) 적용한 SFTP 사용권고 - 20, 21번 포트 번호 사용 |
API | - Application Programming Interface - 시스템 간 연동을 통해 실시간으로 데이터를 수신할 수 있는 기능을 제공하는 인터페이스 기술 |
DBtoDB | - DB시스템 간 데이터를 동기화하거나 전송하는 기술 제공 |
Rsync (Remote Sync) |
- 서버클라이언트 방식으로 수집 대상 시스템과 1:1로 파일과 디렉토리 동기화하는 기술 |
스쿱(Sqoop) | - 커넥터(Connector)를 사용하여 RDB와 하둡(hadoop) 간 데이터 전송 기능을 제공하는 기술 - Sqoop은 모든 적재 과정을 자동화하고 병철 처리 방식으로 작업 |
하둡(hadoop)
- 대용량 데이터 분산처리할 수 있는 자바 기반 오픈소스 프레임워크
- 하둡은 HDFS에 데이터를 저장
- 분산처리시스템인 Map Reduce 를 이용해 데이터를 처리
- 비정형 데이터
- 비정형 데이터 수집방식과 기술에는 크롤링, RSS, Open API, 스크래파이, Apache kafka 등이 있다.
수집 방식 및 기술 | 설명 |
크롤링 (Crawling) |
인터넷상에서 제공되는 다양한 앱 사이트로부터 소셜 네트워크 정보, 뉴스, 게시판 등의 웹 문서 및 콘텐츠 수집 기술 |
RSS (Rich Site Summary) |
블로그, 뉴스, 쇼핑몰 등 웹 사이트에 게시된 새로운 글을 공유하기 위해 XML기반으로 정보를 배포하는 프로토콜을 활용하여 데이터를 수집하는 기술 |
Open API | 응용프로그램을 통해 실시간으로 데이터를 수신할 수 있도록 공개된 API를 이용하여 데이터를 수집 |
스크래파이 (Scrapy) |
웹 사이트를 크롤링하여 구조화된 데이터를 수집하는 파이썬(python) 기반의 앱프레임워크로서 데이터 마이닝, 정보처리, 이력 기록 같은 다양한 애플리케이션에 사용되는 수집 기술 |
아파치 카프카 (Apache Kafka) |
대용량 실시간 로그 처리를 위해 기존 메시징 시스템과 유사하게 레코드 스트림을 발행(Publish) 구독(Scriber)하는 방식의 분산 스트리밍 플랫폼 기술 |
- 반정형 데이터
- 반정형 데이터 수집방식과 기술에는 센싱, 스트리밍, 플럼, 스크라이브, 척와 등이 있다.
수집 방식 및 기술 | 설명 |
센싱 (Sensing) |
센서로부터 수집 및 생성된 데이터를 네트워크를 통해 수집 및 활용 |
스트리밍 (Streaming) |
네트워크를 통해 센서 데이터 및 오디오, 비디오 등의 미디어 데이터를 실시간으로 수집하는 기술 |
플럼 (Flume) |
스트리밍 데이터 흐름(Data Flow)을 비동기 방식으로 처리하는 분산형 로그 수집 기술 |
스크라이브 (Scribe) |
다수의 서버로부터 실시간으로 스트리밍되는 로그 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술 |
척와 (Chukwa) |
대규모 분산 시스템 모니터링을 위해 에이전트(Agent)와 컬렉터(Collector) 구성을 통해 데이터를 수집 수집된 데이터를 하둡 파일 시스템(HDFS)에 저장하는 기능을 제공하는 데이터 수집 기술 |
(2) 데이터 유형 및 속성
데이터 유형
- 구조 관점
- 정형 데이터
- 비정형 데이터
- 반정형 데이터
- 시간 관점
- 실시간 데이터
- 비실시간 데이터
- 저장 형태 관점
- 파일 데이터
- 데이터베이스 데이터
- 콘텐츠 데이터
- 스트림 데이터
데이터 속성
- 형태에 따른 분류
- 정성적 데이터 : 언어, 문자, 기업 매출이 증가함, 저장/검색/분석에 많은 비용 소모
- 정량적 데이터 : 수치, 도형, 기호 키, 생일, 주가 등, 정형화가 된 데이터로 비용 소모가 적음
- 데이터 속성
- 범주형
- 순서형
- 명목형
- 수치형
- 연속형
- 이산형
- 범주형
구분 | 종류 | 설명 |
범주형 | 명목형 | 명사형, 변수 크기 순서 상관없음 ex) 남=1 / 여=2 |
순서형 | 변수가 어떤 기준에 따라 순서에 의미를 부여 ex) 병원수준(의원=1, 종합병원=2, 대학병원=3) |
|
수치형 | 이산형 | 하나하나 셀 수 있는 경우 ex) 문 개수, 시험문제 틀린갯수, 대리점 방문횟수 |
연속형 | 변수가 구간 안의 모든 값을 가질 수 있는 경우 ex) 노인들의 키, 몸무게 |
- 데이터 속성에 대한 측정 척도
- 명목 척도
- 관측 대상 임의 범주로 분류한 후 기호나 숫자 부여
- 분류의 수치화이고, 척도 값이 분류의 의미만 가짐
- 서열 척도/순위 척도
- 여러 관측 대상을 임의의 기준에 따라 상대적인 비교 및 순위화
- 등간 척도/간격 척도
- 동일 간격화로 크기 간의 차이를 비교할 수 있음
- 비율 척도
- 절대 영점이 있고, 비율 계산 가능
- 나이, 키, 금액, 거리, 넓이, 소득 , 부피 등
- 명목 척도
● 속성 값들을 연산했을 때 그 결과가 의미가 있으면 비율 척도이고, 의미 없으면 등간척도 이다.
● 등간 척도 '온도'
20도 + 20도 = 40도 덧셈의미 없음
● 비율 척도
100g * 2 = 200g 은 상대적으로 질량이 2배만큼 큰 질량 ( 의미있음 )
'TIL > 빅데이터 분석기사' 카테고리의 다른 글
01_빅데이터 분석 기획 (3) (0) | 2020.12.16 |
---|---|
01_빅데이터 분석 기획 (2) (0) | 2020.12.15 |
01_빅데이터 분석 기획 (1) (0) | 2020.12.13 |
댓글