GPT는 인간의 언어 자체를 잘아는 것은 아니다.
인간의 언어/지식을 벡터화하여 숫자 형태로 미리 학습을 한것.
인간의 뇌구조와 유사하게 (뉴런-신경전달물질 전달 등)
(인간의 언어는 유한하므로, 단어 혹은 단어보다 더 작은 단위(토큰)에 숫자를 붙여서,
그 숫자들을 이용하여, 연산하여 학습하거나 활용하는 것)

마찬가지로 이미지도 벡터화하여 숫자형태로 본다.
비전서비스, 분류서비스 에도
원본이미지의 특성추출, 조합, 추출, 조합과정을 거쳐서 최소의 벡터값을 추린 뒤 분류연산에 활용하는 구조?

즉, 할 수 있는 일들도 그러한 측면에서 한정적이다.

자연어처리 ?  대화의 문맥을 유사도측면에서 파악하여, 가장 적절한 언어문장 조합을 뱉어내어주는 원리

유사도 측정
즉, 질문의 가장 유사한? 적합한 데이터를 찾아 주는 것

요약
요약도, 벡터화하여 관련성 등등 고려하여, 요약하는 작업을 해주는것
당연히 컴퓨터이고 컴퓨팅 파워가 매우 높으니, 세세한 작업자체를 빠르고 대량으로 돌려버리는 것

기존에 알고 있을 법한 내용 작성
특정 목적의 특정 포맷 메일 작성하기 (텍스트 작성하기)
여러가지 상황 조건에 대한 메일 작성하기(텍스트 작성하기)

BM발굴 시에도 도움됨.
뭐뭐뭐 사업 관련  BM발굴 초안을 작성해죠

법적문서검토
기존 문제가 되는 유형을 잘알고 있을까?
문제가 되는 유형을 알려주고?
문제가 되는 유형과 비슷한 벡터값의 문장들을 찾아서 요약해죠 하면 될라나

공공기관, 규제문서(대량의)
관련 검토 요청
위와 같은 패턴으로? 




임베딩은 텍스트 데이터를 수치 벡터로 변환하는 과정 혹은 
단어나 문장의 의미와 특성을 반영한 벡터 표현자체를 말함.
숫자로 된 벡터구조

심층 신경망 기반의 모델
Word2Vec, GloVe, FastText, BERT 등 알고리즘을 이용하여 만듬
TensorFlow, PyTorch, Keras 등을 사용

그러나, 제공되는지는 데이터가 많다고함?

chatGPT에게 임베딩 벡터데이터를 넘겨줄 수는 없음.
GPT도 내부적으로 요청받은 데이터 및 처리하는 데이터는 임베딩처리하여 돌아가는것일뿐.


https://lsjsj92.tistory.com/657

 

OpenAI ChatGPT API를 활용해 추천 시스템 구현하기(feat. HuggingFace)

포스팅 개요 최근 OpenAI에서 ChatGPT의 공식 API가 드디어 공개되었습니다. ChatGPT는 계속해서 이슈가 대두되고 있는 굉장한 모델인데요. 이번 포스팅에서는 파이썬(Python) 환경에서 OpenAI의 ChatGPT API

lsjsj92.tistory.com

예시를 보면, 영화추천서비스 인데,

GPT가 하는 일은 질문에 대한 자연어처리와, 답변에 대한 자연어처리다.
핵심로직은, 개발을 해야됨.
기존 영화추천데이터를 다운받아 벡터화하고
사용자의 질문을 벡터화하여, 두개 간의 유사도를 측정하는 로직

 

아래와 같은 로직에 임베딩(벡터구조) 활용가능함.

  1. 문장 유사도 측정: 임베딩은 문장 간의 의미적 유사도를 측정하는 데 사용됩니다. 임베딩 공간에서 문장 간의 거리 또는 유사도를 계산하여 문장 유사도를 판단할 수 있습니다. 이를 활용하여 문서의 중복 검사, 검색 엔진의 쿼리-문서 매칭, 문장 단위 기계 번역 등에 사용될 수 있습니다.
  2. 단어 간 의미 유사도 계산: 임베딩은 단어 간의 의미적 유사도를 계산하는 데 사용됩니다. 단어의 임베딩 벡터 간의 거리 또는 유사도를 계산하여 단어 간의 관련성을 판단할 수 있습니다. 이를 활용하여 단어의 클러스터링, 유사한 단어 찾기, 단어 간 유추 작업 등에 사용될 수 있습니다.
  3. 감성 분석: 임베딩은 텍스트의 감성을 분석하는 데 사용될 수 있습니다. 감성 단어의 임베딩을 활용하여 텍스트의 긍정적 또는 부정적인 감성을 판단하고 감성 점수를 계산할 수 있습니다. 이를 활용하여 소셜 미디어 감성 분석, 제품 리뷰 분석, 사용자의 감성 분류 등에 사용될 수 있습니다.
  4. 문서 분류 및 클러스터링: 임베딩은 텍스트 문서를 분류하거나 클러스터링하는 데 사용됩니다. 문서의 임베딩 벡터를 계산한 후, 벡터 간의 거리 또는 유사도를 기반으로 문서들을 분류하거나 클러스터링할 수 있습니다. 이를 활용하여 뉴스 기사 분류, 토픽 모델링, 사용자 리뷰 분석 등에 사용될 수 있습니다.

 




GPT의 미세조정을 단순하게 접했을 때는,
특정 업무분야의 지식에 대해서도 학습시킬 수 있는 것으로 잘못 생각했음

실제는 달랐음.
기존에 학습된 모델에 대해서 조금 더 요구하는 의도에 적합하게 미세조정하는 것을 뜻함.

즉, 
GPT가 모르는 기업환경의 전문적인 데이터를 일부 미세조정 학습 시킨다고,
해당 분야의 전문적인 도메인 지식을 말해주는 것이 아님.


즉, 그래서,
Azure 의  AI검색서비스인 cognitive search 와 같은 다른 서비스를 조합하여,
전문적인 업무 도메인에 대한 지식을 빠르게 찾고, 그러한 결과데이터를 추가로 대화형모델에
전달하여 보다 자연스러운 자연어 답변이 가능하도록 해주는 서비스 아키텍쳐는 있음.

 




gpt-3.5-turbo 및 gpt-4 모델에서 입력에 함수 정보를 포함할 수 있게 됨.
함수는 어떻게 정의하는 것인지...
(모델이 스스로 해당 작업을 위해 코드를 생성하는 기능을 말함??)

함수 호출 기능을 지금 사용하고 싶은 경우
모델명의 뒤에 「0613」을 붙이면 됨
"gpt-4-0613"

 

「gpt-3.5-turbo」모델에서는 취급할 수 있는 토큰 수가 4096 토큰
새로운 「gpt-3.5-turbo-16k」모델은 1만 6384 토큰까지 취급

 

「text-embedding-ada-002」의 요금이 75% 다운
1000 토큰당 0.0001달러

「gpt-3.5-turbo」모델의 요금이 25% 다운
입력 1000 토큰당 0.0015달러,
출력 1000 토큰당 0.002달러

 

 




From ChatGPT

 

VS Code에서 실행테스트

해당 파이썬 파일이 있는 경로 폴더 안에서 수정된 파일목록만 로그에 export하는 프로그램

 

import os

import datetime

# 검색할 확장자 목록

extensions = ('.docx', '.xlsx', '.pptx')

# 최근 수정 날짜 (일 수)

days_since_modified = 10

# 현재 시간에서 days_since_modified를 뺀 날짜

cutoff_date = datetime.datetime.now() - datetime.timedelta(days=days_since_modified)

# 검색할 디렉토리

#'C:\Users\park.gt\Documents'

directory = '.'

# 최근 수정된 파일 목록을 저장할 파일 경로

output_file = 'recently_modified_files.txt'

 

# 검색 결과를 저장할 리스트 초기화

results = []

# 디렉토리 내의 모든 파일 검색

for root, dirs, files in os.walk(directory):

    for file in files:

        # 파일 경로 생성

        file_path = os.path.join(root, file)

       

        # 파일 확장자 확인

        if file_path.endswith(extensions):

            # 파일 최근 수정 시간 가져오기

            modified_time = datetime.datetime.fromtimestamp(os.path.getmtime(file_path))

           

            # 최근 수정일이 cutoff_date 이후인 경우 파일 정보 추가

            if modified_time > cutoff_date:

                results.append(f"{file_path} - Last modified: {modified_time}")

# 최근 수정된 파일 목록을 txt 파일에 저장

with open(output_file, 'w') as f:

    f.write('\n'.join(results))

 

   

 




 

 

트랜스포머 알고리즘 구글 바스바니 엔지니어
 

자연어처리에 사용함.
언어는 문법이 있고, 순서개념이 있다.
문장이 길면 길수록 어려워진다.


집중알고리즘 attention
순서는 무시한다.


학습
단어-단어, 문장-문장 간의 확률을 계산한다.
수천억개의 단어들을 병렬로 학습할 있는 알고리즘
인간언어의 확률적인 지도를 만들어 냈다.
전체학습은 1번하고, 이후 개선해나가는 형태임.
(
문법은 가르치지 않았음)

강화학습 실제로 인건비가 저렴한 저개발 국가에서 실시함.
실제
사람들을 이용하여, 강화학습을 진행함.
실제 인간의 피드백 반영
 

 

 

학습데이터 가장 많은 학습 데이터가 영어문서
두번째로
많이 학습한게 파이썬코드 학습

 

간단한 문답 테스트 하고 있는 수준인데,

사실 스케일을 키워서 생각해보면

=> 지적인 행위도 자동화, 대량생산이 될듯

 

검색 -> 답변

검색을 하면, 유사한 링크를 알려준다. 직접 클릭해서 찾아서

클릭은 광고와 밀접함.

검색의 헤게모니가 무너질 가능성

 

chatGPT 인프라는 클라우드에서 운영된다

, 기존 AWS 클라우드 헤게모니가 무너질 가능성

 

100% 사실을 말해주지 않는다.

30년간 인간이 기록한 인터넷데이터를 학습했기 때문에,

사실도 있고, 사실이 아닌 내용도 있을 있다.




GPT3의 경우 전세계 인터넷 웹데이터 750GB를 학습했다고 나옴.

학습한 데이터의 신뢰성에 따라서 식별하여 골라서 학습시킨 것은 아님.
최종적으로 만들어진 모델의 신뢰성 체크를 진행함.

일반적인 머신러닝 절차처럼, 모델이 생성 되고 난 후 일정부분 튜닝 후 정확도를 개선해 나가는 과정을 거침

모델품질개선 작업에는 인간의 개입이 필수적임.
다만, 인간의 개입이 많이 들어갈수록 비용과 시간이 많아지므로,
적정선의 합의가 필요할듯 하네.




'Tech(테크) > AI관련' 카테고리의 다른 글

chatGPT에게 파이썬 프로그램 하나요청 해봄  (0) 2023.05.12
chatGPT 좀 더 깊게  (0) 2023.03.28
chatGPT 다국어 측면 질문  (1) 2023.03.19
2023-03 GPT4 발표  (0) 2023.03.16
chatGPT를 통한 개인학습 예시  (0) 2023.03.10

GPT3는 다음과 같이 16개 언어를 지원한다.
영어 (English)
스페인어 (Spanish)
독일어 (German)
프랑스어 (French)
이탈리아어 (Italian)
포르투갈어 (Portuguese)
네덜란드어 (Dutch)
러시아어 (Russian)
일본어 (Japanese)
한국어 (Korean)
중국어 (중국어 간체와 중국어 번체 둘 다 지원합니다)
아랍어 (Arabic)
힌디어 (Hindi)
노르웨이어 (Norwegian)
스웨덴어 (Swedish)
핀란드어 (Finnish)


영어 외의 다른언어도 중간 영문번역과정을 거쳐서 진행되는 것이 아님
다국어 자체를 그대로 받아들여서 의도를 파악하고 답변을 생성해냄.


즉, 영문학습데이터를 상대적으로 많이 학습한 것으로 확인은 되나,
영어가 아닌 다른 언어에 대한 지원이 되지 않는 것은 아님.
다만, 해당 언어에 대한 학습량이 충분하지 않는 경우에 발생할 수 있는
성능 및 정확도 문제는 있을 수 있다고 답변함.

영문으로 번역된 학습데이터셋을 제공하는 것도 하나의 방법이 될 수있다고는 함.



기존에 학습한 학습데이터셋의 언어비율은 모른다
다만, 인터넷 웹페이지 영어 비율은 50% 이상? 40%?


<관련 통계를 가져왔지만, 미국/유럽 대상의 자료임>
인터넷 상에서 웹페이지의 언어별 비율을 정확하게 파악하기는 쉽지 않습니다. 
그러나 W3Techs라는 웹사이트에서는 2023년 3월 현재 인터넷 상에서 가장 많이 사용되는 언어들을 조사하여 그 비율을 공개하고 있습니다.

W3Techs의 데이터에 따르면, 2023년 3월 현재 가장 많이 사용되는 언어는 영어로 약 53.2%의 웹페이지가 영어로 작성되어 있습니다. 
이에 이어 중국어(11.8%), 일본어(5.1%), 스페인어(4.7%), 독일어(3.7%) 등이 높은 비율을 차지하고 있습니다.

하지만, 이 데이터는 해당 사이트를 조사한 일부 지역(예를 들어, 미국과 유럽)을 대상으로 한 것이며, 
모든 지역을 대상으로 한 것은 아니기 때문에 전체적인 인터넷 웹페이지의 언어별 비율을 정확하게 파악하기는 어렵습니다




'Tech(테크) > AI관련' 카테고리의 다른 글

chatGPT 좀 더 깊게  (0) 2023.03.28
chatGPT 학습데이터셋의 신뢰도 측면?  (0) 2023.03.19
2023-03 GPT4 발표  (0) 2023.03.16
chatGPT를 통한 개인학습 예시  (0) 2023.03.10
챗GPT 활용분야 (계속 추가)  (0) 2023.03.07

올트먼 오픈AI CEO

2023-03 GPT4 발표

  • 유료 GPT plus 통해서 서비스 제공
  • MS 기업용 AI에서도 GPT4 적용

 

Chat GPT3 텍스트 학습, 텍스트 질의/답변 토큰 4,096
Chat GPT4 이미지 학습
이미지에
담긴 내용과 맥락을 이해해
답변은
여전히 텍스트
vision 들어갔네


토큰 32,768 불법행위관련 요청 답변가능성 82% 줄임

 

가능한 사례

계약서검토, 독소조항 탐지

영업AI시스템 대체하겠네

 




+ Recent posts