GPT3는 다음과 같이 16개 언어를 지원한다.
영어 (English)
스페인어 (Spanish)
독일어 (German)
프랑스어 (French)
이탈리아어 (Italian)
포르투갈어 (Portuguese)
네덜란드어 (Dutch)
러시아어 (Russian)
일본어 (Japanese)
한국어 (Korean)
중국어 (중국어 간체와 중국어 번체 둘 다 지원합니다)
아랍어 (Arabic)
힌디어 (Hindi)
노르웨이어 (Norwegian)
스웨덴어 (Swedish)
핀란드어 (Finnish)


영어 외의 다른언어도 중간 영문번역과정을 거쳐서 진행되는 것이 아님
다국어 자체를 그대로 받아들여서 의도를 파악하고 답변을 생성해냄.


즉, 영문학습데이터를 상대적으로 많이 학습한 것으로 확인은 되나,
영어가 아닌 다른 언어에 대한 지원이 되지 않는 것은 아님.
다만, 해당 언어에 대한 학습량이 충분하지 않는 경우에 발생할 수 있는
성능 및 정확도 문제는 있을 수 있다고 답변함.

영문으로 번역된 학습데이터셋을 제공하는 것도 하나의 방법이 될 수있다고는 함.



기존에 학습한 학습데이터셋의 언어비율은 모른다
다만, 인터넷 웹페이지 영어 비율은 50% 이상? 40%?


<관련 통계를 가져왔지만, 미국/유럽 대상의 자료임>
인터넷 상에서 웹페이지의 언어별 비율을 정확하게 파악하기는 쉽지 않습니다. 
그러나 W3Techs라는 웹사이트에서는 2023년 3월 현재 인터넷 상에서 가장 많이 사용되는 언어들을 조사하여 그 비율을 공개하고 있습니다.

W3Techs의 데이터에 따르면, 2023년 3월 현재 가장 많이 사용되는 언어는 영어로 약 53.2%의 웹페이지가 영어로 작성되어 있습니다. 
이에 이어 중국어(11.8%), 일본어(5.1%), 스페인어(4.7%), 독일어(3.7%) 등이 높은 비율을 차지하고 있습니다.

하지만, 이 데이터는 해당 사이트를 조사한 일부 지역(예를 들어, 미국과 유럽)을 대상으로 한 것이며, 
모든 지역을 대상으로 한 것은 아니기 때문에 전체적인 인터넷 웹페이지의 언어별 비율을 정확하게 파악하기는 어렵습니다




'Tech(테크) > AI관련' 카테고리의 다른 글

chatGPT 좀 더 깊게  (0) 2023.03.28
chatGPT 학습데이터셋의 신뢰도 측면?  (0) 2023.03.19
2023-03 GPT4 발표  (0) 2023.03.16
chatGPT를 통한 개인학습 예시  (0) 2023.03.10
챗GPT 활용분야 (계속 추가)  (0) 2023.03.07

현재는, 미국 일부 리전들과, 서유럽 리전에서만 생성이 가능합니다.

 

 

전반적인 가격에 대한 설명은 아래 링크를 참고하시구요.

Azure OpenAI 서비스 - 가격 책정 | Microsoft Azure

 

 

Azure 예상비용을 추정해볼 수 있는 Azure계산기에서도 아래와 같이 종류별로 예상과금 조회가 됩니다.

가격 계산기 | Microsoft Azure

 

 

 

 

미세 조정된 기본계열 제품의 경우에는 사용시간에 따라 다르겠지만, 학습관련한 비용이 많이 발생하는 것으로 보여집니다. 참고 부탁드립니다.

 

 

 

Request Access to Azure OpenAI Service (microsoft.com)

.

 

 

 

 

 

 

 




'기술(Azure 만...) > Azure빅데이터,분석' 카테고리의 다른 글

Cognitive search  (0) 2023.05.31
시계열데이터 분석  (0) 2023.02.27
데이터 마이닝 클러스터링(Clustering)  (0) 2022.09.29
Azure Data Factory 다시 요약  (0) 2022.04.29
influxDB 정보 요약  (0) 2022.03.16

올트먼 오픈AI CEO

2023-03 GPT4 발표

  • 유료 GPT plus 통해서 서비스 제공
  • MS 기업용 AI에서도 GPT4 적용

 

Chat GPT3 텍스트 학습, 텍스트 질의/답변 토큰 4,096
Chat GPT4 이미지 학습
이미지에
담긴 내용과 맥락을 이해해
답변은
여전히 텍스트
vision 들어갔네


토큰 32,768 불법행위관련 요청 답변가능성 82% 줄임

 

가능한 사례

계약서검토, 독소조항 탐지

영업AI시스템 대체하겠네

 




양배추 씻는법
한통을 4등분한다음,
식초물에 5분정도 담가놨다가
흐르는 물에 한장씩 빠르게 씻는다.

나머지들은 냉장고보관
키친타올 적셔서 한장 감싸주고, 랩으로 싸서 냉장보관하면 오래보관 가능
혹은 채를 썰어서,
유리그릇에 적신 키친타올 깔고 그 위에 양배추 채를 담아서 보관



양배추 계란 비빔밥

1. 양배추 물에 씻어서, 얇게 채를 썬다.
2. 소금간으로 버무린다.
3. 그릇뚜껑 덮어서 전자렌지 1분?
4. 양배추에서 나온 물은 짜서 버린다.
5. 맨밥에 양배추 채썬 것 올리고, 계란하나 깨주고, 전자렌지 1분?
6. 다되면 참기름 두르고 비벼 먹는다. 간장도 기호에 맞게


닭가슴살 양배추 잎채소 마요네즈 무침?

1. 익혀 있는 닭가슴살 잘게 찟는다
2. 양배추 씻어서 채를 썬다
3. 그린빈 얼려놓고 보관하고, 전자렌지 돌려서 물을 짜주고, 2센티로 채를 써서 넣는다.
3. 잎채소 2센티로 채를 썬다, 당근도? 양파도?
4. 마요네즈 세큰술, 파마산치즈 가루, 소금, 후추 


양배추 샐러드
소스 : 그릭요거트 3숟갈, 식초 1숟갈, 꿀 2숟갈, 사과 강판에 갈아서 넣고, 소금약간
소금 잘 녹게 잘 섞어준다
양배추 버무려서 아침에 먹자





chatGPT의 인프라에 대해서 질문을 해봤습니다. 역시나 MS의 투자를 받아왔으니,
MS Cloud 인프라에 구현이 되어 있는 것 같습니다. (크로스체크는 해보지 못했습니다. 참고)
노란색이 저의 질문입니다.
이런식으로 맥락이 이어지는 질문을 통해 개인학습에 매우 효과적입니다.

Chat GPT는 서버는 어디에 위치해 있어? 혹시 azure data center?

Bing Chat에서 사용하는 GPT는 Microsoft Azure Cloud Platform 상에 위치한 서버에서 동작합니다. 이 서버는 전 세계 다양한 지역의 Azure Data Center에 위치할 수 있습니다. Bing Chat가 사용하는 GPT의 정확한 서버 위치는 공개되어 있지 않으며, Microsoft에서는 보안상의 이유로 이에 대한 자세한 정보를 공개하지 않고 있습니다.

 

 

chat gpt는 글로벌서비스인데, 글로벌 라우팅은 어떤 구조로 이루어지니?

Bing Chat에서 사용하는 GPT는 글로벌 서비스이기 때문에, 전 세계 다양한 지역의 사용자에게 접근 가능해야 합니다. 이를 위해 Microsoft는 글로벌 로드 밸런서(Global Load Balancer)라는 시스템을 사용하여 전 세계에 분산된 데이터 센터에 있는 GPT 서버들에 대한 라우팅을 관리합니다.

글로벌 로드 밸런서는 사용자의 요청을 자동으로 가장 가까운 지역의 데이터 센터로 라우팅하여 최소 대기 시간과 최적의 성능을 제공합니다. 이를 위해 Microsoft는 Azure Traffic Manager와 같은 글로벌 로드 밸런서 서비스를 사용하며, 사용자의 위치, 대역폭, 대역폭 비용 등의 요소를 고려하여 최적의 데이터 센터로 라우팅합니다.

 

트래픽매니저, 프런트도어 같은 서비스가 앞단에 있는거네?

네, Microsoft Azure Cloud Platform에서는 Azure Traffic Manager와 Azure Front Door와 같은 서비스를 이용하여 글로벌 로드 밸런싱 및 애플리케이션 배포를 관리합니다.

Azure Traffic Manager는 DNS 기반의 글로벌 로드 밸런서 서비스로, 다양한 위치에 위치한 애플리케이션 인스턴스를 효율적으로 관리할 수 있도록 도와줍니다. Traffic Manager는 최적의 지리적 위치, 성능 또는 가용성을 기반으로 애플리케이션 인스턴스를 라우팅합니다.

Azure Front Door는 웹 응용 프로그램 및 API 액세스를 관리하는 전면 게이트웨이 역할을 합니다. Front Door는 SSL 종단 간 암호화, Web Application Firewall, 글로벌 로드 밸런싱, 라우팅 및 캐싱과 같은 기능을 제공하여 높은 가용성과 보안성을 유지할 수 있습니다. 이를 통해 사용자가 액세스하는 웹 응용 프로그램의 성능을 향상시킬 수 있습니다

 

 

챗GPT의 백엔드는 어떤 조합으로 구성되어 있어?

저의 이전 답변이 부족하여 죄송합니다.

Azure에서의 Chat GPT는 다음과 같이 구성됩니다:

  1. Azure Kubernetes Service (AKS): 대규모 분산 컴퓨팅 작업을 수행하기 위한 마이크로서비스 아키텍처를 구현합니다.
  2. Azure Machine Learning: 자연어 처리 모델을 학습하고 배포하는 데 사용됩니다.
  3. Azure Cognitive Services: 이미 학습된 모델을 사용하여 자연어 처리 및 이해 작업을 수행합니다.
  4. Azure Event Grid: Chat GPT와 연결된 다른 서비스와의 통합을 위한 이벤트 기반 아키텍처를 제공합니다.
  5. Azure Active Directory: Chat GPT와 통신하는 사용자를 인증하고 권한을 부여합니다.
  1. 이러한 서비스들이 함께 작동하여 Chat GPT를 구성하고 있습니다. 따라서 Apache Spark와 같은 기술은 사용되지 않습니다.

 

 

 

GPU VM은 사용하지 않나요? GPU를 통한 병렬연산을 사용했을 것 같은데

네, Chat GPT는 GPU VM을 사용합니다. GPT 모델의 큰 크기와 복잡성으로 인해 CPU만으로는 처리 속도가 매우 느려질 수 있기 때문입니다. 따라서 GPU를 통해 병렬 연산을 수행하여 처리 속도를 향상시킵니다. Azure에서는 가상 머신 이미지로 제공되는 GPU VM을 사용하여 이러한 처리를 수행합니다.

 

위에서 말한 AKS 호스트 머신에 GPU가 붙어 있는건가요?

네, AKS 호스트 머신에 GPU가 붙어 있습니다. Azure Kubernetes Service(AKS)를 실행하는 호스트 머신에는 GPU를 포함한 다양한 유형의 가상 머신이 제공됩니다. 따라서 Chat GPT도 GPU VM에서 실행됩니다. AKS에서 GPU VM을 사용하면 분산 컴퓨팅 작업을 더욱 효율적으로 처리할 수 있으며, 딥 러닝 모델의 성능을 높일 수 있습니다.

 

 

 

사용자와 질문 답변을 하면서도 학습이 되는 구조 인가요?

Chat GPT는 기본적으로 사전 학습된 모델을 사용하여 대화를 수행합니다. 그러나 일부 구현에서는 채팅 기록을 수집하여 모델을 보완하고 성능을 개선하는 데 사용할 수 있습니다. 이를 통해 사용자와 대화를 하면서 모델이 계속해서 학습하고 성능을 개선할 수 있습니다.

하지만 이러한 방식은 모델 성능 개선을 위한 추가적인 데이터 수집과 데이터 정제 과정이 필요하며, 데이터 처리에 대한 개인정보 보호 및 규정 준수를 고려해야 합니다. 따라서 일반적으로는 Chat GPT와 같은 대화 시스템에서는 사용자 대화 기록을 수집하지 않는 것이 일반적입니다.

 

 




  1. 고객 서비스: 채팅GPT는 고객과 상호작용할 수 있는 가상 에이전트를 만들기 위해 사용될 수 있습니다. 이를 통해 고객은 빠르고 정확한 대답을 받을 수 있으며, 회사는 인력 비용을 절감하고 고객 서비스 경험을 향상시킬 수 있습니다.
  2. 마케팅: 채팅GPT를 사용하여 고객과 상호작용하는 동안 이메일, 텍스트 메시지, 소셜 미디어, 웹 사이트, 모바일 앱 등의 다양한 채널을 통해 고객에게 맞춤형 마케팅 메시지를 제공할 수 있습니다.
  3. 교육: 채팅GPT는 교육 분야에서 학생들에게 자동화된 피드백을 제공하거나, 학생들이 자신의 질문에 답변을 얻을 수 있도록 도와줄 수 있습니다.
  4. 의료: 채팅GPT를 사용하여 환자들이 증상을 설명하고, 건강 관련 질문에 대답하고, 약물 및 치료에 대한 정보를 얻을 수 있도록 돕는 가상 의사 또는 간호사를 만들 수 있습니다.
  5. 금융: 채팅GPT를 사용하여 고객이 계좌 잔액, 거래 내역, 이자율 등과 같은 금융 정보를 얻을 수 있도록 돕는 가상 플랫폼을 만들 수 있습니다.
  6. 여행: 채팅GPT를 사용하여 고객이 항공권, 호텔 예약, 렌터카 예약 등의 여행 관련 정보를 얻을 수 있도록 돕는 가상 여행 에이전트를 만들 수 있습니다.
  7. 엔터테인먼트: 채팅GPT를 사용하여 사용자들이 가상 캐릭터와 상호작용하거나, 온라인 게임에서 대화를 나누거나, 새로운 음악, 영화 또는 책을 추천하는 인공 지능 캐릭터를 만들 수 있습니다.

 

제조업.

  1. 제품 설명 및 기술 지원: 제조업에서는 고객이 제품의 기능, 사용법, 유지 보수 방법 등에 대해 궁금해합니다. 이러한 질문에 대해 채팅GPT를 활용하여 실시간으로 답변을 제공함으로써 고객 만족도를 높일 수 있습니다.
  2. 품질 관리: 제조업에서는 품질 관리가 매우 중요합니다. 채팅GPT를 활용하여 생산라인에서 발생하는 문제에 대한 실시간 대응 및 해결 방안을 제공함으로써 품질을 개선할 수 있습니다.
  3. 생산계획 및 예측: 제조업에서는 생산계획을 세우는 것이 중요합니다. 채팅GPT를 활용하여 생산계획을 수립하고 예측하는 데 도움을 줄 수 있습니다.
  4. 유지보수 및 수리: 제조업에서는 기계 및 설비 등의 유지보수와 수리가 필요합니다. 채팅GPT를 활용하여 수리 및 유지보수에 대한 지침을 제공함으로써 업무 효율성을 높일 수 있습니다.
  5. 재고 및 자재 관리: 제조업에서는 재고 및 자재 관리가 매우 중요합니다. 채팅GPT를 활용하여 재고 및 자재 관리에 대한 조언을 제공하고 재고 수준을 최적화할 수 있습니다.



 

1.새로운 콘텐츠 생성

인간만이 가졌던 창의의 영역에 가까워짐

새로운 이미지, 영상, 음성, 텍스트, 코드, 문서 등

2.학습 데이터에 기반한 답변생성, 요약, 번역

-> 아직은 초기 시장으로,

    계속해서 새로운 서비스가 출현할 예정

 

사이버 보안 측면의 위협요소 가능성

-해커들의 악용가능성

) 정교화된 피싱메일 대량발송, 가짜 웹사이트 자동생성,




ILSVRC - ImageNet Large Scale Recognition Challenge

 

 

AlexNet

 뇌 구조를 본 뜬 인공신경망 모델, CNN을 사용해 딥러닝을 처음 구현

 기존 머신러닝에서 CPU를 활용 -> 병렬 연산을 고속으로 처리 GPU를 이용한 동시다발적인 연산

제프리 힌턴(Geoffrey Hinton) 캐나다 토론토대학 교수 
딥러닝의 아버지!!




'Tech(테크) > AI관련' 카테고리의 다른 글

2023-03 GPT4 발표  (0) 2023.03.16
chatGPT를 통한 개인학습 예시  (0) 2023.03.10
챗GPT 활용분야 (계속 추가)  (0) 2023.03.07
AI분야 주요 기술 등장, 시간순서  (0) 2023.03.07
머신러닝과 딥러닝  (0) 2023.03.07

둘다 인간의 뇌에서 일어나는 의사결정 과정을 모방한 것

머신러닝 딥러닝
머신러닝 : 주어진 데이터에서 특징을 추출하는 과정에 사람이 개입함. 딥 러닝 : end-to-end machine learning
처음부터 끝까지 기계가 학습한다

 

 

적용가능분야

1.패턴 인식 : 사물 인식얼굴인식, 얼굴의 감정 표현 인식, 음성 단어 인식 등 (선택지가 있고, 그걸 판단)
2.이상 감지 : 비정상적인 일련의 신용 카드 거래 감지, 원자력 발전소 센서 판독 값의 비정상적인 패턴 감지 등
3.예측 : 미래의 주식 가격, 통화 환율 예측, 특정 인물이 좋아할 만 한 영화 예측 등



1 목적

미래의 값을 예측해내기 위함

이번에 재료가 바로 시계열데이터임

 

시계열 데이터  시간을 통해 순차적으로 발생하는 관측 데이터의 집합

반드시 고정된 시간 구간의 관측치이어야함

정상시계열(Stationary) : 평균과 표준편차가 일정하다는 조건
비정상이라면, 차분이나 로그함수를 씌워서 정상시계열로 변환먼저 해야됨

'Monthly'  -> 'Quarterly -> 'Yearly'  ( 변환 가능! )
'Yearly' -> 'Quarterly' -> 'Monthly'  ( 변환 불가능! )

 

 

변동의 종류

추세(Trend) 변동 상승 아니면 하락
계절(Season) 변동 1년안에 월단위 반복?  분기별 반복 패턴?
순환(Circulation) 변동 경기변동
 5년, 10년처럼 장기간 동안 간격을 두고
상승, 하락이 주기적으로 반복되는 패턴
추세변동과 결합해 주로 분석을 진행
불규칙(irregular) 변동 나머지 패턴들

 

 

양적예측방법  데이터가 많을때
과거에 대한 정보(양적 자료)를 기반으로
법칙을 추정해 예측하는 방법
평활법, 분해법, ARIMA(시간영역), Fourier(주파수영역)
질적예측방법  과거의 정보가 없거나 불충분한 경우
미래 예측을 위해 전문가들의 주관적 견해를 사용
델파이 기법과, 시나리오 기법

 

Azure 시계열데이터 저장/분석 서비스

아직 한국리전 미지원 이지만,

미국 서부, 미국 동부, EU 서부 및 EU 북부 지역

 

Azure Time Series Insights를 사용하면 하루에 수억 개의 센서 이벤트를 수집할 수 있으며 1분 이내에 인사이트를 쿼리하는 데 새 데이터를 사용할 수 있습니다또한 이 데이터를 몇 달 동안 유지할 수 있습니다. Time Series Insights는 근실시간 및 기록 TB의 데이터 조합을 몇 초 만에 쿼리할 수 있도록 최적화되었습니다.

 

출처: <https://azure.microsoft.com/en-us/blog/announcing-azure-time-series-insights/>

IoT Hub 또는 Event Hub 구성 정보를 입력하기만 하면 Time Series Insights가 연결되어 1분 이내에 여기에서 실시간 데이터를 가져와 저장하기 시작합니다

 

엔터프라이즈 규모, 안정성, Azure Active Directory 통합 및 운영 보안을 제공합니다.

 

 

Python으로 시계열 예측 모델을 학습시키도록 AutoML 설정

 

출처: <https://learn.microsoft.com/ko-kr/azure/machine-learning/how-to-auto-train-forecast>




'기술(Azure 만...) > Azure빅데이터,분석' 카테고리의 다른 글

Cognitive search  (0) 2023.05.31
Azure OpenAI가 생겼음 202303  (0) 2023.03.16
데이터 마이닝 클러스터링(Clustering)  (0) 2022.09.29
Azure Data Factory 다시 요약  (0) 2022.04.29
influxDB 정보 요약  (0) 2022.03.16

+ Recent posts