지식마이닝 서비스

장점

다른 AI서비스 Cognitive svc 활용이 용이하다.

이미지처리, 자연어처리, 콘텐츠 추출등에 다른 서비스 활용

 

목적

대량의 데이터에서 신속하게 인사이트를 추출가능함.

  • Azure Cognitive Search에서 인식 기술을 사용하는 방법 이해
  • 인덱서가 JSON serialization을 포함하여 데이터 수집 단계를 자동화하는 방법 알아보기
  • 지식 저장소의 용도 설명
  • 검색 인덱스 빌드 및 쿼리

 

구조적, 반구조적, 비구조적 문서들에서 데이터를

효과적이고 빠르게 추출하는 검색솔루션을 만들기 위한

인프라와 도구 제공

 

오픈 소스 소프트웨어 라이브러리인 Apache Lucene을 기반

쿼리 Full text search 기능제공

 

 

JSON형식 모든 원본데이터 지원

Azure 스토리지 연계가능

자동완성, 자동제안 기능,

적중항목 강조기능 제공

 

 

인덱서

원본데이터의 JSON직렬화 검색엔진에 전달

변경검색을 지원? 바뀐것만???

 

검색인덱스로 JSON데이터를 Push

 

<데이터로드>

데이터원본에서 데이터를 가져올때 Pull

 

기본제공기술

자연어 처리 기술: 이러한 기술로 비구조적 텍스트는 인덱스에서 검색 및 필터링 가능한 필드로 매핑됩니다.

일부 사례:

  • 핵심 구 추출: 미리 학습된 모델을 사용하여 용어 배치, 언어 규칙, 다른 용어에 대한 근접성 및 원본 데이터 내에서 용어가 비정상적인 정도에 따라 중요한 구를 검색합니다.
  • 텍스트 번역 기술: 미리 학습된 모델을 사용하여 정규화 또는 지역화 사용 사례를 위해 입력 텍스트를 다양한 언어로 번역합니다.

이미지 처리 기술: 이미지 콘텐츠의 텍스트 표현을 만들어 Azure Cognitive Search의 쿼리 기능을 사용하여 검색할 수 있도록 합니다.

일부 사례:

  • 이미지 분석 기술: 이미지 검색 알고리즘을 사용하여 이미지의 콘텐츠를 식별하고 텍스트 설명을 생성합니다.
  • OCR(광학 문자 인식) 기술: 문서송장, 청구서, 재무 보고서, 문서 등과 함께 도로 표지판 및 제품 사진과 같은 이미지에서 인쇄되거나 필기된 텍스트를 추출할 수 있습니다.

 


인덱스 = 테이블

= 문서

 

 

문서의 필드에 대해

검색, 필터링, 정렬 등을 선택할 있음.

 

  • 테이블 프로젝션은 쿼리 및 시각화를 위해 관계형 스키마에서 추출된 데이터를 구조화하는 데 사용됩니다.
  • 개체 프로젝션은 각 데이터 엔터티를 나타내는 JSON 문서입니다.
  • 파일 프로젝션은 추출된 이미지를 JPG 형식으로 저장하는 데 사용됩니다.



현재는, 미국 일부 리전들과, 서유럽 리전에서만 생성이 가능합니다.

 

 

전반적인 가격에 대한 설명은 아래 링크를 참고하시구요.

Azure OpenAI 서비스 - 가격 책정 | Microsoft Azure

 

 

Azure 예상비용을 추정해볼 수 있는 Azure계산기에서도 아래와 같이 종류별로 예상과금 조회가 됩니다.

가격 계산기 | Microsoft Azure

 

 

 

 

미세 조정된 기본계열 제품의 경우에는 사용시간에 따라 다르겠지만, 학습관련한 비용이 많이 발생하는 것으로 보여집니다. 참고 부탁드립니다.

 

 

 

Request Access to Azure OpenAI Service (microsoft.com)

.

 

 

 

 

 

 

 




'기술(Azure 만...) > Azure빅데이터,분석' 카테고리의 다른 글

Cognitive search  (0) 2023.05.31
시계열데이터 분석  (0) 2023.02.27
데이터 마이닝 클러스터링(Clustering)  (0) 2022.09.29
Azure Data Factory 다시 요약  (0) 2022.04.29
influxDB 정보 요약  (0) 2022.03.16

1 목적

미래의 값을 예측해내기 위함

이번에 재료가 바로 시계열데이터임

 

시계열 데이터  시간을 통해 순차적으로 발생하는 관측 데이터의 집합

반드시 고정된 시간 구간의 관측치이어야함

정상시계열(Stationary) : 평균과 표준편차가 일정하다는 조건
비정상이라면, 차분이나 로그함수를 씌워서 정상시계열로 변환먼저 해야됨

'Monthly'  -> 'Quarterly -> 'Yearly'  ( 변환 가능! )
'Yearly' -> 'Quarterly' -> 'Monthly'  ( 변환 불가능! )

 

 

변동의 종류

추세(Trend) 변동 상승 아니면 하락
계절(Season) 변동 1년안에 월단위 반복?  분기별 반복 패턴?
순환(Circulation) 변동 경기변동
 5년, 10년처럼 장기간 동안 간격을 두고
상승, 하락이 주기적으로 반복되는 패턴
추세변동과 결합해 주로 분석을 진행
불규칙(irregular) 변동 나머지 패턴들

 

 

양적예측방법  데이터가 많을때
과거에 대한 정보(양적 자료)를 기반으로
법칙을 추정해 예측하는 방법
평활법, 분해법, ARIMA(시간영역), Fourier(주파수영역)
질적예측방법  과거의 정보가 없거나 불충분한 경우
미래 예측을 위해 전문가들의 주관적 견해를 사용
델파이 기법과, 시나리오 기법

 

Azure 시계열데이터 저장/분석 서비스

아직 한국리전 미지원 이지만,

미국 서부, 미국 동부, EU 서부 및 EU 북부 지역

 

Azure Time Series Insights를 사용하면 하루에 수억 개의 센서 이벤트를 수집할 수 있으며 1분 이내에 인사이트를 쿼리하는 데 새 데이터를 사용할 수 있습니다또한 이 데이터를 몇 달 동안 유지할 수 있습니다. Time Series Insights는 근실시간 및 기록 TB의 데이터 조합을 몇 초 만에 쿼리할 수 있도록 최적화되었습니다.

 

출처: <https://azure.microsoft.com/en-us/blog/announcing-azure-time-series-insights/>

IoT Hub 또는 Event Hub 구성 정보를 입력하기만 하면 Time Series Insights가 연결되어 1분 이내에 여기에서 실시간 데이터를 가져와 저장하기 시작합니다

 

엔터프라이즈 규모, 안정성, Azure Active Directory 통합 및 운영 보안을 제공합니다.

 

 

Python으로 시계열 예측 모델을 학습시키도록 AutoML 설정

 

출처: <https://learn.microsoft.com/ko-kr/azure/machine-learning/how-to-auto-train-forecast>




'기술(Azure 만...) > Azure빅데이터,분석' 카테고리의 다른 글

Cognitive search  (0) 2023.05.31
Azure OpenAI가 생겼음 202303  (0) 2023.03.16
데이터 마이닝 클러스터링(Clustering)  (0) 2022.09.29
Azure Data Factory 다시 요약  (0) 2022.04.29
influxDB 정보 요약  (0) 2022.03.16

데이터 마이닝 작업에는

클러스터링(Clustering),

분류(Classification),

회귀(Regression),

연관규칙 마이닝(Association Rule Mining),

텍스트 마이닝(Text Mining),

이상 감지(Anomaly detection),

순차패턴 마이닝(Sequential Pattern Mining),

시계열 데이터 예측(Time Series Prediction) 등

 

클러스터링(Clustering)

연관있는 데이터 군집화하기?

군집화해서 연관성 찾기?

왼쪽 같은 이상적인 그림은 현실에 없을 , 실제 현실은 오른쪽과 같을 ,

한두개 튀는 개체가 있을듯, -> 제외하고 가는건가?

 

암튼 최대한 자동으로 군집화를 해주면, 거기서 인사이트는 결과를 보는 사람이 찾는것인지?

결과물에서 데이터의 구조를 파악한다?

비지도학습이네.

 

시장의 세그멘테이션을 할 때 유용

-> 하나의 시장을 여러 고객의 하위군집으로 구분하여, divide and conquer 하는 건가

B2C 맞겠네 그럼..

 

문서 데이터의 클러스터링은 어려울 같은데,

중심 키워드 찾는것도 어렵고, 키워드의 의미가 유사한 것들을 그룹화해야될 것인데,

의미를 어떻게 알아낼까?

 

이미지인식, 유사한 이미지 군집화?

 

 

실제 예시를 보니 이해가 빠르네

클러스터링 파이썬 연습 예제학생 성적 데이터 분석

출처: <https://lucy-the-marketer.kr/ko/growth/clustering-python-student-data-analysis/>

 

아래 raw 데이터 표만 봐서는, 출석과 점수의 연관성을 찾을 없다.

 

그러나,  알아보려는 의도에 기반하여

군집 3개로 묶어보자

1) 출석도 좋고 성적도 좋은 학생군 2) 출석은 나쁘지만 성적은 좋은 학생군 3) 출석도 나쁘고 성적도 나쁜 학생군

 

# k=3 클러스터 생성
estimator = KMeans(n_clusters = 3)
cluster_ids = estimator.fit_predict(students)
# 플롯
plt.scatter(students['Attended'], students['Mark'], c=cluster_ids)
plt.xlabel("Attended classes")
plt.ylabel("Mark")
# 범례 달기
for name, mark, attended in students.itertuples():
    plt.annotate(name, (attended, mark))
 
plt.show()

 

 

여기서 추가작업 ,

과목마다 만점이 다르다네

단위가 다를 때는 표준화(normalization)MinMaxScaler()로 표준화 같은방법

 

군집을 4개로

 

그런데 결론이 쉽게 들어오지는 않는데

출석이 높다고 무조건 성적이 높은건 아니고

 

결론이 뭐야? ㅋㅋㅋ

 

 




'기술(Azure 만...) > Azure빅데이터,분석' 카테고리의 다른 글

Azure OpenAI가 생겼음 202303  (0) 2023.03.16
시계열데이터 분석  (0) 2023.02.27
Azure Data Factory 다시 요약  (0) 2022.04.29
influxDB 정보 요약  (0) 2022.03.16
Power BI 기본요소들  (0) 2022.01.16
구분 설명
ADF 여러가지 데이터를 대규모로 변환/이동하는
데이터플로우를 정의하는 클라우드 데이터 통합서비스
Linked Services ADF에 연결된 서비스
파이프라인 시작점/종착점
Integration Runtimes Worker역할 , 일종의 서버개념
실제로 Job을 수행하는 주체(Linked Svc와 직접 통신)
DataSets 데이터베이스 테이블 개념
파이프라인 Job에서 지정하는 개체
Pipeline jobs 워크플로우
양 종단간 데이터 복사/이동과 같은 작업
Trigger 파이프라인 Job을 반복하여 실행시켜주는 개체
) 스케쥴링 트리거, 이벤트 트리거

 

Linked 서비스 종류

파이프라인 개념도




 

 

<역사>

TSDB 대표주자 기타 프로메테우스, 한국마크베이스

2013, nosql

시간의 흐름에 따라 기록된 데이터들의 수열

시간-값 쌍으로 입력

실시간변화추적 용이

오래된 데이터 삭제도 용이

입출력이 빠름

 

윈도우, 리눅스 모두 지원

기본 8086포트

 

<예시>

센서데이터, 주가데시터, 온도데이터, 의료정보

자동차 등 동적인 장비 속도정보 등 실시간데이터

 

2018년말부터 TSDB관심도 높아짐.

스마트팩토리, 빅데이터 때문, +HW발전

 

 

Influx(인플럭스)DB Infiniflux(인피니플럭스)DB는 같은 것이 아니니 헷갈리지 않길 바란다.

인피니플럭스는 현재 MACHBASE(마크베이스)로 사명을 변경하였다.

구글 levelDB사용

• MongoDB와 같이 Schemaless Design이다.

• Continuous Queries(CQ)를 지원한다.

• Rest API를 제공한다.

 

 

influxd.exe 서버 실행(끄면안됨)

influx.exe 클라이언트 로 접속

 

RDB                                InfluxDB

database                        database

table                                measurement

column                                key

Primary Key, indexed column        tag key (only string)

unindexed column                field key

SET of index entries                series

 

 

 

 

INSERT table11,company='my_company',region='SouthKorea' X=15,Y=29,Z=31

show measurements

show series

SELECT * FROM table11

SELECT "X","Z" FROM table11

SHOW RETENTION POLICIES

CREATE RETENTION POLICY "rp_test1" ON "myDB" DURATION 24h REPLICATION 1

 

database마다 리텐션정책 설정 가능

retention policy 오래된 것부터 삭제해주는 기능, 플랫폼 자체 내장 기능

 

압축기능은 없는지?

압축해서, 평균시간 판단해서

이상이 있는 시간대 데이터만 보관하고 나머지는 지워버리는?

 

<사용>

grafana 설치 및 실행

설치 후 브라우저를 통해 그라파나 서버 접속 포트 3000

data source influxdb 선택

-> 브라우저에서 대시보드 생성함, 그래프 추가

테이블선택 및 where조건 설정

챠트말고, 전광판같은 것도 있네, 아마도 group by 해서 표현가능할듯

 

<주의사항>

아래와 같이 3가지 주체가 시간이 다른 경우 , 주의가 필요함.

A 기기 :  InfluxDB 에 데이터를 넣는 머신  ( OS시간 1 30 )

DB 서버 : InfluxDB 가 돌아가는 서버 ( OS 시간 1 )

PC :  브라우저를 (Grafana) 통해 가시화하는 내 컴퓨터  (OS 시간 12 30)

 

내 브라우저에서의 X 축이 130분까지 보여지는게 아니라 내 브라우저의 시간인 12 30분까지만 보여진다.

따라서 입력된 데이터가 보여지지 않는다. 데이터가 보여지게 하려면 적어도 내 PC 의 시간이 입력시간보다 빨라야한다.

 

서버에 저장된 시간이 내 컴퓨터의 OS 시간에 맞추어 변경 혹은

입력시 InfluxDB 서버 시간에 맞추어서 재 변경

 

<쿼리예시>

1. 하루전 부터 지금까지  (상대시간 지정)

SELECT mean("watt") as watt, mean("pf") as pf FROM "jinyoung1_5"

WHERE time > now() - 1d GROUP BY time(1h)

 

2. 날짜 지정  (8 12일만 출력됨)

SELECT mean("watt") as watt, mean("pf") as pf FROM "{0}"

WHERE time > '2013-08-12' and time < '2013-08-13'  # 2017-04-04 00:00:01

GROUP BY time({1}) fill(null)

 

3. 절대시간 지정  (00:00:00 Coordinated Universal Time (UTC), Thursday, 1 January 1970.)

select value from response_times where time > 1388534400s




정의 
데이터를 대화형 인사이트로 변환하기 위해  
함께 작동하는 소프트웨어 서비스, 앱 및 커넥터의 컬렉션 
 
3가지 종류 
Power BI Desktop, Power BI 서비스, Power BI Mobile 
 
PBI Desktop 
BI개발자가 사용하는 저작도구 게더링, 트랜스포밍, 그리고 이쁘게 만들어 서비스로 게시까지 
PBI 서비스 
개발한 대시보드가 게시되어 지는  SaaS서비스 
 
 

 

 

 

하위 기본 구성 요소 

시각화 
 시각적 개체라고도 하는 시각적인 데이터 표현 
데이터 세트 
 Power BI에서 시각화를 만드는 데 사용하는 데이터 컬렉션 데이터연결 혹은 로우데이터 파일 업로드 
보고서 
 하나 이상의 페이지에 걸친 데이터 세트의 시각적 개체 컬렉션 
대시보드 
 보고서에서 작성된 시각적 개체의 단일 페이지 컬렉션 
타일 
 보고서 또는 대시보드의 단일 시각화 하나하나 

 

PBI Desktop 

  1. 데이터연결 혹은 업로드 

 

 

 

 

 

혹은 로컬에서 엑셀파일 등에서 읽어올   있음 

 

  1. 데이터변환 

 

파워쿼리편집기가 있네 

형식변환도 가능 

 

 

혹은 테이블형태 데이터를 포함한 URL 있다면 

데이터 가져오기를 선택하고 URL을 지정해도  

 




'기술(Azure 만...) > Azure빅데이터,분석' 카테고리의 다른 글

Azure Data Factory 다시 요약  (0) 2022.04.29
influxDB 정보 요약  (0) 2022.03.16
Azure Synapse Analytics 또 요약  (0) 2021.11.14
ADF 또 요약  (0) 2021.11.14
KepserverEX - Iot Edge - Iot Hub  (0) 2021.07.16

Azure Synapse Analytics
= 원스톱 데이터분석 통합환경
생성할 떄 ADLS 생성, SQL로그인계정입력


1. 수집 및 준비 (파이프라인작업)
ADLS 에서 SQL쿼리(select 등등)를 해서 결과를 다시 ADLS에 저장
수집 및 준비 / 모델링 및 제공 / 시각화(PBI)
요것도 가능,    요것도 가능
Synapse Studio-통합-파이프라인

수집 및 준비 : Azure Synapse spark
모델링 및 제공 : Azure Synapse Analytics

혹은 
ADF에서 수집 및 준비가능
차이점??
UI는 똑같은데, IR지정하는것도 같음.




2. 분석작업
분석런타임(분석풀) : SQL(서버리스 / 전용), spark 내장
서버리스 SQL풀은 쿼리기반 과금모델

웹기반 Synapse Studio에서 notebook 사용가능


3. 시각화
메뉴위치 : Synapse Studio-개발-PBI
PBI 데이터세트 생성 및 다운로드(.pbids파일)







'기술(Azure 만...) > Azure빅데이터,분석' 카테고리의 다른 글

influxDB 정보 요약  (0) 2022.03.16
Power BI 기본요소들  (0) 2022.01.16
ADF 또 요약  (0) 2021.11.14
KepserverEX - Iot Edge - Iot Hub  (0) 2021.07.16
DW, ADF, Synapse Analytics 복습  (0) 2021.03.01

ADF
데이터 이동을 오케스트레이션하고 대규모로 데이터를 변환하기 위해 데이터 기반 워크플로를 만들 수 있는 클라우드 기반 ETL 및 데이터 통합 서비스


워크플로 = 파이프라인
요즘엔 ETL -> ELT
즉, 변환없이 바로 로드 가능
ELT의 장점은 JSON, XML, PDF 또는 이미지 등 원래 형식으로 데이터를 저장가능

 

즉, 데이터를 가져와 가공하여 DW에 모아줌.
이후 Azure Databricks 또는 HDInsight 로 데이터분석 작업


-연결
-수집
-변환
-보강
-DW에 게시
-파이프라이 모니터링

# Sign in to Azure and set the WINDOWS AZURE subscription to work with
$SubscriptionId = "add your subscription in the quotes"

Add-AzureRmAccount
Set-AzureRmContext -SubscriptionId $SubscriptionId

# register the Microsoft Azure Data Factory resource provider
Register-AzureRmResourceProvider -ProviderNamespace Microsoft.DataFactory

# DEFINE RESOURCE GROUP NAME AND LOCATION PARAMETERS
$resourceGroupName = "cto_ignite"
$rglocation = "West US 2"

# CREATE AZURE DATA FACTORY
New-AzureRmDataFactoryV2 -ResourceGroupName $resourceGroupName -Name "ctoigniteADF" -Location $rglocation


제어 작업이 생각보다 많네
1. ForEachActivity

ForEach 작업은 파이프라인의 반복 제어 흐름을 정의합니다. 이 작업을 사용하여 컬렉션을 반복하고 루프의 지정된 작업을 실행합니다. 이 작업의 루프 구현은 프로그래밍 언어에서 구조를 반복하는 Foreach와 비슷합니다.

 

2. WebActivity 웹 작업

Data Factory 파이프라인에서 사용자 지정 REST 엔드포인트를 호출하는 데 사용할 수 있습니다. 작업에서 사용하고 액세스하도록 데이터 세트 및 연결된 서비스를 전달할 수 있습니다.

 

3. 조회 작업 조회 작업을 사용하면 모든 외부 소스에서 레코드/테이블 이름/값을 읽거나 조회할 수 있습니다. 이 출력을 다음 작업에서 추가로 참조할 수 있습니다.

 

4. 메타데이터 작업 가져오기 GetMetadata 작업을 사용하면 Azure Data Factory에 있는 모든 데이터의 메타데이터를 검색할 수 있습니다.

 

5. Until 작업

프로그래밍 언어의 Do-Until 루핑 구조와 유사한 Do-Until 루프를 구현합니다. 작업과 관련된 조건이 참으로 평가될 때까지 일단의 반복 작업을 실행합니다. Data Factory에서 until 작업의 시간 제한 값을 지정할 수 있습니다.

 

6. If 조건 작업

If 조건을 사용하여 True 또는 False로 평가되는 조건을 기반으로 분기할 수 있습니다. If 조건 작업은 if 문에서 프로그래밍 언어로 제공하는 것과 동일한 기능을 제공합니다. 조건이 true로 평가되면 작업 집합을 평가하고, 조건이 false로 평가되면 다른 작업 집합을 평가합니다.

 

7. Wait 작업

파이프라인에서 대기 작업을 사용하는 경우 파이프라인은 후속 작업을 계속 실행하기 전에 지정된 기간 동안 대기합니다.


IR설치 시 포트 오픈 관련
https://docs.microsoft.com/en-us/azure/data-factory/create-self-hosted-integration-runtime?tabs=data-factory#ports-and-firewalls

 




'기술(Azure 만...) > Azure빅데이터,분석' 카테고리의 다른 글

Power BI 기본요소들  (0) 2022.01.16
Azure Synapse Analytics 또 요약  (0) 2021.11.14
KepserverEX - Iot Edge - Iot Hub  (0) 2021.07.16
DW, ADF, Synapse Analytics 복습  (0) 2021.03.01
데이터분석 기초  (0) 2020.09.09

Kepserver

  1. JRE(Java Runtime Engine) 필요
  2. IoT GW 플러그인 설치
  3. 인증서

프로덕션인증서 구매후 사용중이라면 필요없음.

(개발/테스트) IoT Edge CA 인증서를 Kepserver 가져오기 하거나

 

  1. 새에이전트 추가 , MQTT클라이언트
  1. 브로커
  • URL: ssl://[iot 에지 장치 FQDN]:8883
  • 주제: devices/[장치 ID]/messages/events/

 

  1. 보안
  • 클라이언트 ID: [기기 ID]
  • 사용자 이름: [iothub 긴 이름]/[기기 ID]/?api-version=2016-11-14
  • 비밀번호: [SAS 토큰]

 

  1. 보낼 태그 선택

 

 

 

  1. Kepserver 로그 확인

 

  1. Edge 로그 확인

iotedge logs -f edgeHub

 

 

kep --- Iot Edge 통신확인

  1. Ping 확인
  1. Openssl 확인

openssl s_client -connect [iot Edge     your gateway name]:8883 -CAfile $CERTDIR/certs/azure-iot-test-only.root.ca.cert.pem

 

 

 

IoT Edge에서

 Azure Streaming Analytics 작업

 

데이터필터링

데이터 리포맷팅

다른 곳으로 푸시??

데이터집계

 

그림 잘그렸네, 출처는 PTC 사이트

 

 

 

반대로 iot HUB  kepserver 알아야됨

관련 CLI설치 : az extension add --name azure-cli-iot-ext

 

Iot장치 추가

az iot hub device-identity create --device-id [device id] --hub-name [hub name]

 

토큰생성

az iot hub generate-sas-token --device-id [device id] --hub-name [hub name] --duration [duration in seconds]

 

Kepserver구성에 토큰값 넣기

 

 

출처: <https://docs.microsoft.com/en-us/samples/azure-samples/iot-hub-how-to-kepware-edge/azure-iot-edge-connect-ptc/>

 

 

 

VS code 있으면, 포털 접속 하지 않고 가능

https://www.kepware.com/getattachment/cadfb137-5b66-4dd0-9861-69d58c33346f/KEPServerEX-and-Microsoft-Azure-IoT-Hub.pdf




'기술(Azure 만...) > Azure빅데이터,분석' 카테고리의 다른 글

Azure Synapse Analytics 또 요약  (0) 2021.11.14
ADF 또 요약  (0) 2021.11.14
DW, ADF, Synapse Analytics 복습  (0) 2021.03.01
데이터분석 기초  (0) 2020.09.09
ADF data mapping dataflow  (0) 2020.04.19

+ Recent posts