Azure databricks
DB는 데이터브릭스 약자
DB 워크스페이스
DB 워크플로우
DB 런타임
DB IO
DB 서버리스
DBES(데이터브릭스 엔터프라이즈 시큐리티)
왼쪽 데이터 원본 - DB - ML, DW, BI
Free azure 구독에서도, 14일 트라이얼 사용가능??
<실습>
1. DB생성 (Vnet peer 기능있네)
2. SA생성
3. DB 클러스터생성(DB버전 선택(스파크버전), 파이썬버전 선택 , 워커타입, 드라이버 타입, 오토스케일옵션)
마스터서버 : 오케스트레이션
워커서버 : 스크립트가 실제 구동되는
4. 워크스테이스로 이동, 계정선택 후 노트북생성(파이썬)
5. notebook에 예제 스크립트 입력 cmd1
cmd2 SA지정,컨테이너,토큰 등등 입력 후 개별 실행도 가능.
상단에 run all 기능
sql쿼리문도 실행가능....
다양한 챠트로 보기 가능함.
피벗테이블도 있음.
<다른 notebook>
1. SA - 컨테이너 에 json 파일 , SAS정의
2. 노트북 생성, cmd1에서 변수 정의 1번의 json파일
3. cmd2 에서. 해당 blob 마운트
4. json 호출 var df = spark.read.json("/mnt/블라브라.json")
5. df.select(컬럼명, 컬럼명...) 해서 display함수 부르면 출력됨.
6. 각종 sql 쿼리문 실행가능 count(*) 등
7. 최종결과를 csv로 쓰기 가능 어디에? blob에 쓰기
Azure Databricks Tutorial | Data transformations at scale