실제로 사용해봐야지 기억이 되지...

계속 봐도 기억안남

 

DW

      • 조직 여러 데이터 원본에서 한곳으로 담을수 있는
      • 여러가지 형태의 원본데이터를 표준형식으로 변형하여 한곳에 담음(ADLS, SQL )
      • ETL
      • 복잡한 쿼리에 대한 답변을 제공하는
      • 분석/보고/OLAP 처러의 원본이 되는

Online analytical processing

OLAP : DW 데이터를 전략적인 정보로 변환시키는 시스템

 

      • 주기적으로/ 실시간으로 데이터 저장이 되어야함

일괄처리/스트림처리

      • 실시간 데이터 수집(스트리밍) -> 즉각적인 의사결정이 가능하도록
      • 거의 limit 없는 사이즈

 

 

 

데이터원본 -> ADF(데이터통합서비스) -> DW(ADLS)-> AzureSnapse/Databricks/ -> Azure Analysis/ML -> PBI

 

판매량을 예측해서 적정생산량을 미리 결정하여,

사전 반영 한다,

원자재주문이나, 인력운영계획, 장비운영계획 등에 반영

 

ADF

데이터통합서비스

N개의 데이터원본 ---- 파이프라이닝 구성-- 적재(ADLS 혹은 기타)

파이프라인의 지속적 실행
가져와서
, 일부가공 적재까지

 

Azure Synapse Analytics

마치 끊없이 생성되는 세포처럼 리밋없는 분석서비스라는 의미
DW작업(데이터엔지니어) + 분석(데이터사이언티스트, Spark)
복잡한
ETL작업(추출, 변환, 로드)

파이프라이닝
기능
polybase
이용 SQL 데이터불러오기 가능
 

제어노드 + 컴퓨팅노드풀

컴퓨팅작업비용
(100DWU 1H 2천원) + 스토리지(1TB 15)

 

페타바이트 원본데이터도 가능 / 스케일링 기능이 있음.

1.Snapse SQL
(DWU단위 과금청구)
2.Spark
3.Snapse Pipeline
4.Studio

 

Azure Databricks

Azure 에서 실행되는 Apache Spark(빅데이터처리엔진)환경
데이터처리
+ 분석
노트북
GUI 아니라 R, Python, Scala 등의 언어를 사용하여
Databricks 스크립트를 만들고 데이터를 쿼리
가능

 

 

Analysis Services

상관관계가 있는 여러 데이터원본을 연결, 결합, 필터링, 집계가 가능
쿼리
혹은 GUI

데이터탐색 PBI 시각화도 가능

테라바이트 데이터에 적합
높은
읽기 동시성(수천명 사용자)

표형식데이터, 신속한 대시보드 구성 가능

 

Azure HDinsight

Spark뿐 아니라 Apache Kafka 및 Apache Hadoop 처리 모델도 제공

 

노드가 Azure SQL Database가 아닌 Spark 처리 엔진을 실행한다?

 

 

데이터 레이크는 ‘원시 데이터’를 보관하지만 데이터 웨어하우스는 ‘구조화된 정보’를 보관합니다.

 

출처: <https://docs.microsoft.com/ko-kr/learn/modules/examine-components-of-modern-data-warehouse/4-knowledge-check>

 

PolyBase

      • SQL Server 2016 이상 버전(Windows만 해당)
      • 분석 플랫폼 시스템(이전의 병렬 데이터 웨어하우스)
      • Azure Synapse Analytics

 

SQL서버에 추가하면 여러가지 데이터를 TSQL 하여 가져올 있음.(조인 가능)

SQL 해당 DB 생성+외부테이블생성, 거기에 저장함

 

외부커넥터제공
SQL Server

 

쿼리가능 저장소

Blob Storage, Hadoop, SQL

 

설치방법

https://docs.microsoft.com/ko-kr/sql/relational-databases/polybase/polybase-installation?view=sql-server-ver15

 

 




'기술(Azure 만...) > Azure빅데이터,분석' 카테고리의 다른 글

ADF 또 요약  (0) 2021.11.14
KepserverEX - Iot Edge - Iot Hub  (0) 2021.07.16
데이터분석 기초  (0) 2020.09.09
ADF data mapping dataflow  (0) 2020.04.19
ADF Parametrization 매개변수화  (0) 2020.04.19

데이터분석가

) 슈퍼마켓의 고객 구매 패턴을 이해하고 싶음 , 최종목적은 매출증대, 수익증대

보유데이터 : 제품 판매시점, 날씨데이터, 휴일데이터 등등

보유데이터를 기준으로 매출 예측작업

 

제조회사는 목표를 상세하게 설정

)  수익을 극대화할수있는 제품 선정

 

 

데이터Source

  1. 구조화된 데이터 = 데이터베이스

관계형데이터베이스

Ex) 고객정보, 판매제품정보

 

  1. 반구조화된데이터

DB 아니지만 구조화 일부된

) JSON형태

) - 저장소

 

  1. 비정형데이터

) 오디오, 비디오

-> blob 저장소

 

 

단순한

데이터에 따라서 적당한 데이터형식이 있다.

, 주소데이터 같은경우는 표본주소데이터 테이블을 따로 가지고 있으면,

사용자에게는 주소데이터 인덱스번호만 저장해놓으면 중복해서 같은 주소를 저장하지 않아도 된다.

해당 데이터가 반구조화된 데이터라면 낭비가 발생할 수있다.

 

구성도 예시

 

 

 

 

 트랜잭션 측면

은행의 송금데이터는 발신자 수신자 트랜잭션 처리가

완전히 끝나야 정확하게 기입을 해야되는 요건이 있다.

, 관계형데이터베이스가 알맞다,

 

대신, 소셜미디어의 좋아요 건수 같이 트랜잭션이 적용되지 않아도 되는

분야의 경우

분산데이터베이스가 적당하다.

실시간 불일치가 발생해도 괜찮은 분야는

하나의 서버에 정확한 데이터를 반영시키고,

다른 복제되는서버에 sync 조금 늦더라도, 괜찮은 경우

대신 복제는 반드시 일어난다는 가정하에.

 

 

분석작업

회사의 의사결정자 수준에서는 개별 트랜잭션 데이터는 중요하지 않다,

특정 기간별 결과 데이터가 중요하다.

) 월별판매데이터 혹은 판매추이 등의 보고서

 

일괄처리작업 배치작업 예시

) 신용카드 월별 청구서 생성

 

장점        

편리한 시간에 대량의 처리 한번에 끝남

자원 사용량이 적은 시간대에 자원 활용 가능

 

단점

데이터수집===결과생성 term 길다

배치 시작 전까지 정확한 데이터가 준비되어 있어야 한다.

사소한 데이터 오류도 용납안됨

일괄작업 중에 문제가 생기면 전체배치가 중단되고, 다시 구동해야됨,

 

 

-> 실시간데이터 처리

, 배치작업까지 기다릴 필요없다   머신러닝 AI 등을 이용하면  전체 월별 데이터가 쌓이지 않아도  어느정도 예측이될수있다

) 금융기관 위험도 분석, 예측 수정

게임회사 실시간 피드백, 대응

소비재 기업 빠른 소비자 피드백 , 제품 대응

마이크로 배치 개념

 

 




'기술(Azure 만...) > Azure빅데이터,분석' 카테고리의 다른 글

KepserverEX - Iot Edge - Iot Hub  (0) 2021.07.16
DW, ADF, Synapse Analytics 복습  (0) 2021.03.01
ADF data mapping dataflow  (0) 2020.04.19
ADF Parametrization 매개변수화  (0) 2020.04.19
Azure datafactory (ADF)  (0) 2020.04.19

매핑 dataflow 

no coding transform data   

 

derived : 유래된, 파생된 

aggregate : 집계하다 count  

 

가능한 작업

 join, conditional split, exists, union, lookup select, aggregate, pivot 등등

 filter , sort  

 

상단 data flow debug 활성화하면, 실시간 data preview 확인가능  

 

예제 ===================================================================

1. ADF생성, link svc to blob 

 

2. input(source) dataset 지정 blob, csv 

 

3. output dataset 추가, 여기서는 cvs로.. 

 

4. data flow에서 매핑 dataflow 선택 - 소스 dataset 선택 - Year 추출 작업 추가  

title 컬럼에서 괄호안에 year만 추출해서 컬럼 추가 

visual Expression Builder 에서....  - 마지막에 sink 추가 sink dataset (target) 지정 

 

5. debug하고 preview 테이블 확인  

 

6. data flow - detail 버튼 누르면 각 스텝별 처리 rows, 시간 확인 가능  

 

7. movie by year 작업 추가 

Group by  Year컬럼 선택 

Aggregates 컬럼명추가 및 표현식추가 count() 끝  

 

8. 처리된 데이터 sink to csv   

 

9. publish All 

 

 

 

 

 

 

 

 

 

 

 

 




'기술(Azure 만...) > Azure빅데이터,분석' 카테고리의 다른 글

KepserverEX - Iot Edge - Iot Hub  (0) 2021.07.16
DW, ADF, Synapse Analytics 복습  (0) 2021.03.01
데이터분석 기초  (0) 2020.09.09
ADF Parametrization 매개변수화  (0) 2020.04.19
Azure datafactory (ADF)  (0) 2020.04.19

Parametrization 매개변수화  

 

ADF  파이프라인의 매개변수화 

- 파라메터 

- 변수 

- 표현(json)  

 

예시) 

동적 input file  

동적 output 테이블명 

appeding date 

conditional programming 등등   

소스 csv 파일명이 그대로 데이터셋명으로   

 

사전작업  

azure database table 생성(소스 csv파일) 앞서 예제와 같이 일단 생성함....  

(추가작업)

input Parameters 에서 fileName 추가  

add dynamic content 에서 찾아서 클릭하면

아래와 같이 알아서 들어감. 

@dataset().fileName  

output Parameters 에서 동일하게 추가  

 

마지막 Activity에서 수정 

tableName에 value 추가 해줌 : Cars, Planes     

 

===========================

 반대로 azrue sql -> export csv to blob도 가능함 

파일명에 datetime concat도 할수있음   

 

그럼... 정리해보면. 온프레미스 source 쪽에는 계속해서 데이터가 쌓이고 있따면,  

해당 파일들을 자동으로 파이프라인 통해서 azure sql로 쌓아나갈 수 있다.  

============================= 

set vaiables 두개의 액션 가운데, variables 추가   

 

 

 

 

 

 

 

 

 

 

 




'기술(Azure 만...) > Azure빅데이터,분석' 카테고리의 다른 글

KepserverEX - Iot Edge - Iot Hub  (0) 2021.07.16
DW, ADF, Synapse Analytics 복습  (0) 2021.03.01
데이터분석 기초  (0) 2020.09.09
ADF data mapping dataflow  (0) 2020.04.19
Azure datafactory (ADF)  (0) 2020.04.19

왜 공장이라 했을까 ;; 뉴스공장?  

 

 한마디로 : 클라우드 데이터통합 서비스 

ETL : Extract, Transform, Load 스토리지, 이동, 처리 의 자동화(파이프라인)  

복사는 소스데이터셋(+key) -> 타겟데이터셋 (+key)  소스, 타겟 데이터셋이 여러 개 (즉, shared 데이터셋에서 이용.)   

 

<간략 실습 요약> 

==============================================

 1. 사전준비 

- Azure SQL Database 생성 + 서버생성, 테이블생성 

- SA생성, 컨테이너 생성, 예제 csv 업로드 CSV ----> SQL로 이동 파이프라인  

 

 2. ADF 생성(로케이션, 버전 등 선택) 

 

 3. ADF에서 파이프라인생성 

 

 4. Connections Linked Svc , blob지정, Integrated runtime지정 

 

 5. 소스(input) 데이터셋 생성(blob, csv, linksvc 앞서 만든 것 지정,  가공가능, 델리미터, 인코딩 등등 

 

 6. 타켓(output) 데이터셋 생성(azure sql, 인증정보) ==========> sql에 방화벽 설정은?????  

 

 7. 액티비티 정의 (여기 예제는 1개만들면 끝) copy data (source -> sink) mapping

 

 8. azure sql에서 확인하고 끝. 

 

 

 

 

 

 

 




'기술(Azure 만...) > Azure빅데이터,분석' 카테고리의 다른 글

KepserverEX - Iot Edge - Iot Hub  (0) 2021.07.16
DW, ADF, Synapse Analytics 복습  (0) 2021.03.01
데이터분석 기초  (0) 2020.09.09
ADF data mapping dataflow  (0) 2020.04.19
ADF Parametrization 매개변수화  (0) 2020.04.19

+ Recent posts