일단 벡터 자체가 속도가 빠르다.

다양한 각도, 관점에서 비교하여 찾을 있다.

다양한 유사성 측정

단어와 문장간의 상대적 위치도 하나의 팩터가 .

사과와 배는 가까운 곳에 있다?

일부만 다른 벡터는 같다? 오타처리?

 

텍스트 임베딩 (Text Embedding) 각 토큰을 숫자 벡터로 변환하는 작업 아니라,
추가로, 유사성, 분류, 의미 등을 벡터화에 같이 표현을 해준다.



단어 임베딩(Word Embeddings)
문장 임베딩(Sentence Embeddings)

벡터검색 Cog search 기능
벡터이므로 ,여러가지 각도로 유사성을 찾아 주는 기술
기울기
?  코사인유사도( 벡터가 유사하면 각도가 작다)

벡터들 간의 거리?
유클리드거리? 자카드 유사도?
유사성분석 검색
추천시스템
이미지검색
, 영상검색, 음성검색,
추상적 정보검색

 

워드넷 : 단어간의 의미관계, 유사성정보 제공

동의의사전

 

검색서비스 내에, 문맥 의미를 분석하여 유사성확인하는 기능이  알고리즘에 들어가 있다.

Azure 내에 대표적인 벡터검색 서비스는 Azure cognitive search







From ChatGPT

 

VS Code에서 실행테스트

해당 파이썬 파일이 있는 경로 폴더 안에서 수정된 파일목록만 로그에 export하는 프로그램

 

import os

import datetime

# 검색할 확장자 목록

extensions = ('.docx', '.xlsx', '.pptx')

# 최근 수정 날짜 (일 수)

days_since_modified = 10

# 현재 시간에서 days_since_modified를 뺀 날짜

cutoff_date = datetime.datetime.now() - datetime.timedelta(days=days_since_modified)

# 검색할 디렉토리

#'C:\Users\park.gt\Documents'

directory = '.'

# 최근 수정된 파일 목록을 저장할 파일 경로

output_file = 'recently_modified_files.txt'

 

# 검색 결과를 저장할 리스트 초기화

results = []

# 디렉토리 내의 모든 파일 검색

for root, dirs, files in os.walk(directory):

    for file in files:

        # 파일 경로 생성

        file_path = os.path.join(root, file)

       

        # 파일 확장자 확인

        if file_path.endswith(extensions):

            # 파일 최근 수정 시간 가져오기

            modified_time = datetime.datetime.fromtimestamp(os.path.getmtime(file_path))

           

            # 최근 수정일이 cutoff_date 이후인 경우 파일 정보 추가

            if modified_time > cutoff_date:

                results.append(f"{file_path} - Last modified: {modified_time}")

# 최근 수정된 파일 목록을 txt 파일에 저장

with open(output_file, 'w') as f:

    f.write('\n'.join(results))

 

   

 




 

 

트랜스포머 알고리즘 구글 바스바니 엔지니어
 

자연어처리에 사용함.
언어는 문법이 있고, 순서개념이 있다.
문장이 길면 길수록 어려워진다.


집중알고리즘 attention
순서는 무시한다.


학습
단어-단어, 문장-문장 간의 확률을 계산한다.
수천억개의 단어들을 병렬로 학습할 있는 알고리즘
인간언어의 확률적인 지도를 만들어 냈다.
전체학습은 1번하고, 이후 개선해나가는 형태임.
(
문법은 가르치지 않았음)

강화학습 실제로 인건비가 저렴한 저개발 국가에서 실시함.
실제
사람들을 이용하여, 강화학습을 진행함.
실제 인간의 피드백 반영
 

 

 

학습데이터 가장 많은 학습 데이터가 영어문서
두번째로
많이 학습한게 파이썬코드 학습

 

간단한 문답 테스트 하고 있는 수준인데,

사실 스케일을 키워서 생각해보면

=> 지적인 행위도 자동화, 대량생산이 될듯

 

검색 -> 답변

검색을 하면, 유사한 링크를 알려준다. 직접 클릭해서 찾아서

클릭은 광고와 밀접함.

검색의 헤게모니가 무너질 가능성

 

chatGPT 인프라는 클라우드에서 운영된다

, 기존 AWS 클라우드 헤게모니가 무너질 가능성

 

100% 사실을 말해주지 않는다.

30년간 인간이 기록한 인터넷데이터를 학습했기 때문에,

사실도 있고, 사실이 아닌 내용도 있을 있다.




GPT3의 경우 전세계 인터넷 웹데이터 750GB를 학습했다고 나옴.

학습한 데이터의 신뢰성에 따라서 식별하여 골라서 학습시킨 것은 아님.
최종적으로 만들어진 모델의 신뢰성 체크를 진행함.

일반적인 머신러닝 절차처럼, 모델이 생성 되고 난 후 일정부분 튜닝 후 정확도를 개선해 나가는 과정을 거침

모델품질개선 작업에는 인간의 개입이 필수적임.
다만, 인간의 개입이 많이 들어갈수록 비용과 시간이 많아지므로,
적정선의 합의가 필요할듯 하네.




'Tech(테크) > AI관련' 카테고리의 다른 글

chatGPT에게 파이썬 프로그램 하나요청 해봄  (0) 2023.05.12
chatGPT 좀 더 깊게  (0) 2023.03.28
chatGPT 다국어 측면 질문  (1) 2023.03.19
2023-03 GPT4 발표  (0) 2023.03.16
chatGPT를 통한 개인학습 예시  (0) 2023.03.10

GPT3는 다음과 같이 16개 언어를 지원한다.
영어 (English)
스페인어 (Spanish)
독일어 (German)
프랑스어 (French)
이탈리아어 (Italian)
포르투갈어 (Portuguese)
네덜란드어 (Dutch)
러시아어 (Russian)
일본어 (Japanese)
한국어 (Korean)
중국어 (중국어 간체와 중국어 번체 둘 다 지원합니다)
아랍어 (Arabic)
힌디어 (Hindi)
노르웨이어 (Norwegian)
스웨덴어 (Swedish)
핀란드어 (Finnish)


영어 외의 다른언어도 중간 영문번역과정을 거쳐서 진행되는 것이 아님
다국어 자체를 그대로 받아들여서 의도를 파악하고 답변을 생성해냄.


즉, 영문학습데이터를 상대적으로 많이 학습한 것으로 확인은 되나,
영어가 아닌 다른 언어에 대한 지원이 되지 않는 것은 아님.
다만, 해당 언어에 대한 학습량이 충분하지 않는 경우에 발생할 수 있는
성능 및 정확도 문제는 있을 수 있다고 답변함.

영문으로 번역된 학습데이터셋을 제공하는 것도 하나의 방법이 될 수있다고는 함.



기존에 학습한 학습데이터셋의 언어비율은 모른다
다만, 인터넷 웹페이지 영어 비율은 50% 이상? 40%?


<관련 통계를 가져왔지만, 미국/유럽 대상의 자료임>
인터넷 상에서 웹페이지의 언어별 비율을 정확하게 파악하기는 쉽지 않습니다. 
그러나 W3Techs라는 웹사이트에서는 2023년 3월 현재 인터넷 상에서 가장 많이 사용되는 언어들을 조사하여 그 비율을 공개하고 있습니다.

W3Techs의 데이터에 따르면, 2023년 3월 현재 가장 많이 사용되는 언어는 영어로 약 53.2%의 웹페이지가 영어로 작성되어 있습니다. 
이에 이어 중국어(11.8%), 일본어(5.1%), 스페인어(4.7%), 독일어(3.7%) 등이 높은 비율을 차지하고 있습니다.

하지만, 이 데이터는 해당 사이트를 조사한 일부 지역(예를 들어, 미국과 유럽)을 대상으로 한 것이며, 
모든 지역을 대상으로 한 것은 아니기 때문에 전체적인 인터넷 웹페이지의 언어별 비율을 정확하게 파악하기는 어렵습니다




'Tech(테크) > AI관련' 카테고리의 다른 글

chatGPT 좀 더 깊게  (0) 2023.03.28
chatGPT 학습데이터셋의 신뢰도 측면?  (0) 2023.03.19
2023-03 GPT4 발표  (0) 2023.03.16
chatGPT를 통한 개인학습 예시  (0) 2023.03.10
챗GPT 활용분야 (계속 추가)  (0) 2023.03.07

올트먼 오픈AI CEO

2023-03 GPT4 발표

  • 유료 GPT plus 통해서 서비스 제공
  • MS 기업용 AI에서도 GPT4 적용

 

Chat GPT3 텍스트 학습, 텍스트 질의/답변 토큰 4,096
Chat GPT4 이미지 학습
이미지에
담긴 내용과 맥락을 이해해
답변은
여전히 텍스트
vision 들어갔네


토큰 32,768 불법행위관련 요청 답변가능성 82% 줄임

 

가능한 사례

계약서검토, 독소조항 탐지

영업AI시스템 대체하겠네

 




chatGPT의 인프라에 대해서 질문을 해봤습니다. 역시나 MS의 투자를 받아왔으니,
MS Cloud 인프라에 구현이 되어 있는 것 같습니다. (크로스체크는 해보지 못했습니다. 참고)
노란색이 저의 질문입니다.
이런식으로 맥락이 이어지는 질문을 통해 개인학습에 매우 효과적입니다.

Chat GPT는 서버는 어디에 위치해 있어? 혹시 azure data center?

Bing Chat에서 사용하는 GPT는 Microsoft Azure Cloud Platform 상에 위치한 서버에서 동작합니다. 이 서버는 전 세계 다양한 지역의 Azure Data Center에 위치할 수 있습니다. Bing Chat가 사용하는 GPT의 정확한 서버 위치는 공개되어 있지 않으며, Microsoft에서는 보안상의 이유로 이에 대한 자세한 정보를 공개하지 않고 있습니다.

 

 

chat gpt는 글로벌서비스인데, 글로벌 라우팅은 어떤 구조로 이루어지니?

Bing Chat에서 사용하는 GPT는 글로벌 서비스이기 때문에, 전 세계 다양한 지역의 사용자에게 접근 가능해야 합니다. 이를 위해 Microsoft는 글로벌 로드 밸런서(Global Load Balancer)라는 시스템을 사용하여 전 세계에 분산된 데이터 센터에 있는 GPT 서버들에 대한 라우팅을 관리합니다.

글로벌 로드 밸런서는 사용자의 요청을 자동으로 가장 가까운 지역의 데이터 센터로 라우팅하여 최소 대기 시간과 최적의 성능을 제공합니다. 이를 위해 Microsoft는 Azure Traffic Manager와 같은 글로벌 로드 밸런서 서비스를 사용하며, 사용자의 위치, 대역폭, 대역폭 비용 등의 요소를 고려하여 최적의 데이터 센터로 라우팅합니다.

 

트래픽매니저, 프런트도어 같은 서비스가 앞단에 있는거네?

네, Microsoft Azure Cloud Platform에서는 Azure Traffic Manager와 Azure Front Door와 같은 서비스를 이용하여 글로벌 로드 밸런싱 및 애플리케이션 배포를 관리합니다.

Azure Traffic Manager는 DNS 기반의 글로벌 로드 밸런서 서비스로, 다양한 위치에 위치한 애플리케이션 인스턴스를 효율적으로 관리할 수 있도록 도와줍니다. Traffic Manager는 최적의 지리적 위치, 성능 또는 가용성을 기반으로 애플리케이션 인스턴스를 라우팅합니다.

Azure Front Door는 웹 응용 프로그램 및 API 액세스를 관리하는 전면 게이트웨이 역할을 합니다. Front Door는 SSL 종단 간 암호화, Web Application Firewall, 글로벌 로드 밸런싱, 라우팅 및 캐싱과 같은 기능을 제공하여 높은 가용성과 보안성을 유지할 수 있습니다. 이를 통해 사용자가 액세스하는 웹 응용 프로그램의 성능을 향상시킬 수 있습니다

 

 

챗GPT의 백엔드는 어떤 조합으로 구성되어 있어?

저의 이전 답변이 부족하여 죄송합니다.

Azure에서의 Chat GPT는 다음과 같이 구성됩니다:

  1. Azure Kubernetes Service (AKS): 대규모 분산 컴퓨팅 작업을 수행하기 위한 마이크로서비스 아키텍처를 구현합니다.
  2. Azure Machine Learning: 자연어 처리 모델을 학습하고 배포하는 데 사용됩니다.
  3. Azure Cognitive Services: 이미 학습된 모델을 사용하여 자연어 처리 및 이해 작업을 수행합니다.
  4. Azure Event Grid: Chat GPT와 연결된 다른 서비스와의 통합을 위한 이벤트 기반 아키텍처를 제공합니다.
  5. Azure Active Directory: Chat GPT와 통신하는 사용자를 인증하고 권한을 부여합니다.
  1. 이러한 서비스들이 함께 작동하여 Chat GPT를 구성하고 있습니다. 따라서 Apache Spark와 같은 기술은 사용되지 않습니다.

 

 

 

GPU VM은 사용하지 않나요? GPU를 통한 병렬연산을 사용했을 것 같은데

네, Chat GPT는 GPU VM을 사용합니다. GPT 모델의 큰 크기와 복잡성으로 인해 CPU만으로는 처리 속도가 매우 느려질 수 있기 때문입니다. 따라서 GPU를 통해 병렬 연산을 수행하여 처리 속도를 향상시킵니다. Azure에서는 가상 머신 이미지로 제공되는 GPU VM을 사용하여 이러한 처리를 수행합니다.

 

위에서 말한 AKS 호스트 머신에 GPU가 붙어 있는건가요?

네, AKS 호스트 머신에 GPU가 붙어 있습니다. Azure Kubernetes Service(AKS)를 실행하는 호스트 머신에는 GPU를 포함한 다양한 유형의 가상 머신이 제공됩니다. 따라서 Chat GPT도 GPU VM에서 실행됩니다. AKS에서 GPU VM을 사용하면 분산 컴퓨팅 작업을 더욱 효율적으로 처리할 수 있으며, 딥 러닝 모델의 성능을 높일 수 있습니다.

 

 

 

사용자와 질문 답변을 하면서도 학습이 되는 구조 인가요?

Chat GPT는 기본적으로 사전 학습된 모델을 사용하여 대화를 수행합니다. 그러나 일부 구현에서는 채팅 기록을 수집하여 모델을 보완하고 성능을 개선하는 데 사용할 수 있습니다. 이를 통해 사용자와 대화를 하면서 모델이 계속해서 학습하고 성능을 개선할 수 있습니다.

하지만 이러한 방식은 모델 성능 개선을 위한 추가적인 데이터 수집과 데이터 정제 과정이 필요하며, 데이터 처리에 대한 개인정보 보호 및 규정 준수를 고려해야 합니다. 따라서 일반적으로는 Chat GPT와 같은 대화 시스템에서는 사용자 대화 기록을 수집하지 않는 것이 일반적입니다.

 

 




  1. 고객 서비스: 채팅GPT는 고객과 상호작용할 수 있는 가상 에이전트를 만들기 위해 사용될 수 있습니다. 이를 통해 고객은 빠르고 정확한 대답을 받을 수 있으며, 회사는 인력 비용을 절감하고 고객 서비스 경험을 향상시킬 수 있습니다.
  2. 마케팅: 채팅GPT를 사용하여 고객과 상호작용하는 동안 이메일, 텍스트 메시지, 소셜 미디어, 웹 사이트, 모바일 앱 등의 다양한 채널을 통해 고객에게 맞춤형 마케팅 메시지를 제공할 수 있습니다.
  3. 교육: 채팅GPT는 교육 분야에서 학생들에게 자동화된 피드백을 제공하거나, 학생들이 자신의 질문에 답변을 얻을 수 있도록 도와줄 수 있습니다.
  4. 의료: 채팅GPT를 사용하여 환자들이 증상을 설명하고, 건강 관련 질문에 대답하고, 약물 및 치료에 대한 정보를 얻을 수 있도록 돕는 가상 의사 또는 간호사를 만들 수 있습니다.
  5. 금융: 채팅GPT를 사용하여 고객이 계좌 잔액, 거래 내역, 이자율 등과 같은 금융 정보를 얻을 수 있도록 돕는 가상 플랫폼을 만들 수 있습니다.
  6. 여행: 채팅GPT를 사용하여 고객이 항공권, 호텔 예약, 렌터카 예약 등의 여행 관련 정보를 얻을 수 있도록 돕는 가상 여행 에이전트를 만들 수 있습니다.
  7. 엔터테인먼트: 채팅GPT를 사용하여 사용자들이 가상 캐릭터와 상호작용하거나, 온라인 게임에서 대화를 나누거나, 새로운 음악, 영화 또는 책을 추천하는 인공 지능 캐릭터를 만들 수 있습니다.

 

제조업.

  1. 제품 설명 및 기술 지원: 제조업에서는 고객이 제품의 기능, 사용법, 유지 보수 방법 등에 대해 궁금해합니다. 이러한 질문에 대해 채팅GPT를 활용하여 실시간으로 답변을 제공함으로써 고객 만족도를 높일 수 있습니다.
  2. 품질 관리: 제조업에서는 품질 관리가 매우 중요합니다. 채팅GPT를 활용하여 생산라인에서 발생하는 문제에 대한 실시간 대응 및 해결 방안을 제공함으로써 품질을 개선할 수 있습니다.
  3. 생산계획 및 예측: 제조업에서는 생산계획을 세우는 것이 중요합니다. 채팅GPT를 활용하여 생산계획을 수립하고 예측하는 데 도움을 줄 수 있습니다.
  4. 유지보수 및 수리: 제조업에서는 기계 및 설비 등의 유지보수와 수리가 필요합니다. 채팅GPT를 활용하여 수리 및 유지보수에 대한 지침을 제공함으로써 업무 효율성을 높일 수 있습니다.
  5. 재고 및 자재 관리: 제조업에서는 재고 및 자재 관리가 매우 중요합니다. 채팅GPT를 활용하여 재고 및 자재 관리에 대한 조언을 제공하고 재고 수준을 최적화할 수 있습니다.



 

1.새로운 콘텐츠 생성

인간만이 가졌던 창의의 영역에 가까워짐

새로운 이미지, 영상, 음성, 텍스트, 코드, 문서 등

2.학습 데이터에 기반한 답변생성, 요약, 번역

-> 아직은 초기 시장으로,

    계속해서 새로운 서비스가 출현할 예정

 

사이버 보안 측면의 위협요소 가능성

-해커들의 악용가능성

) 정교화된 피싱메일 대량발송, 가짜 웹사이트 자동생성,




+ Recent posts