데이터분석가

) 슈퍼마켓의 고객 구매 패턴을 이해하고 싶음 , 최종목적은 매출증대, 수익증대

보유데이터 : 제품 판매시점, 날씨데이터, 휴일데이터 등등

보유데이터를 기준으로 매출 예측작업

 

제조회사는 목표를 상세하게 설정

)  수익을 극대화할수있는 제품 선정

 

 

데이터Source

  1. 구조화된 데이터 = 데이터베이스

관계형데이터베이스

Ex) 고객정보, 판매제품정보

 

  1. 반구조화된데이터

DB 아니지만 구조화 일부된

) JSON형태

) - 저장소

 

  1. 비정형데이터

) 오디오, 비디오

-> blob 저장소

 

 

단순한

데이터에 따라서 적당한 데이터형식이 있다.

, 주소데이터 같은경우는 표본주소데이터 테이블을 따로 가지고 있으면,

사용자에게는 주소데이터 인덱스번호만 저장해놓으면 중복해서 같은 주소를 저장하지 않아도 된다.

해당 데이터가 반구조화된 데이터라면 낭비가 발생할 수있다.

 

구성도 예시

 

 

 

 

 트랜잭션 측면

은행의 송금데이터는 발신자 수신자 트랜잭션 처리가

완전히 끝나야 정확하게 기입을 해야되는 요건이 있다.

, 관계형데이터베이스가 알맞다,

 

대신, 소셜미디어의 좋아요 건수 같이 트랜잭션이 적용되지 않아도 되는

분야의 경우

분산데이터베이스가 적당하다.

실시간 불일치가 발생해도 괜찮은 분야는

하나의 서버에 정확한 데이터를 반영시키고,

다른 복제되는서버에 sync 조금 늦더라도, 괜찮은 경우

대신 복제는 반드시 일어난다는 가정하에.

 

 

분석작업

회사의 의사결정자 수준에서는 개별 트랜잭션 데이터는 중요하지 않다,

특정 기간별 결과 데이터가 중요하다.

) 월별판매데이터 혹은 판매추이 등의 보고서

 

일괄처리작업 배치작업 예시

) 신용카드 월별 청구서 생성

 

장점        

편리한 시간에 대량의 처리 한번에 끝남

자원 사용량이 적은 시간대에 자원 활용 가능

 

단점

데이터수집===결과생성 term 길다

배치 시작 전까지 정확한 데이터가 준비되어 있어야 한다.

사소한 데이터 오류도 용납안됨

일괄작업 중에 문제가 생기면 전체배치가 중단되고, 다시 구동해야됨,

 

 

-> 실시간데이터 처리

, 배치작업까지 기다릴 필요없다   머신러닝 AI 등을 이용하면  전체 월별 데이터가 쌓이지 않아도  어느정도 예측이될수있다

) 금융기관 위험도 분석, 예측 수정

게임회사 실시간 피드백, 대응

소비재 기업 빠른 소비자 피드백 , 제품 대응

마이크로 배치 개념

 

 




'기술(Azure 만...) > Azure빅데이터,분석' 카테고리의 다른 글

KepserverEX - Iot Edge - Iot Hub  (0) 2021.07.16
DW, ADF, Synapse Analytics 복습  (0) 2021.03.01
ADF data mapping dataflow  (0) 2020.04.19
ADF Parametrization 매개변수화  (0) 2020.04.19
Azure datafactory (ADF)  (0) 2020.04.19

+ Recent posts