GPT는 인간의 언어 자체를 잘아는 것은 아니다.
인간의 언어/지식을 벡터화하여 숫자 형태로 미리 학습을 한것.
인간의 뇌구조와 유사하게 (뉴런-신경전달물질 전달 등)
(인간의 언어는 유한하므로, 단어 혹은 단어보다 더 작은 단위(토큰)에 숫자를 붙여서,
그 숫자들을 이용하여, 연산하여 학습하거나 활용하는 것)

마찬가지로 이미지도 벡터화하여 숫자형태로 본다.
비전서비스, 분류서비스 에도
원본이미지의 특성추출, 조합, 추출, 조합과정을 거쳐서 최소의 벡터값을 추린 뒤 분류연산에 활용하는 구조?

즉, 할 수 있는 일들도 그러한 측면에서 한정적이다.

자연어처리 ?  대화의 문맥을 유사도측면에서 파악하여, 가장 적절한 언어문장 조합을 뱉어내어주는 원리

유사도 측정
즉, 질문의 가장 유사한? 적합한 데이터를 찾아 주는 것

요약
요약도, 벡터화하여 관련성 등등 고려하여, 요약하는 작업을 해주는것
당연히 컴퓨터이고 컴퓨팅 파워가 매우 높으니, 세세한 작업자체를 빠르고 대량으로 돌려버리는 것

기존에 알고 있을 법한 내용 작성
특정 목적의 특정 포맷 메일 작성하기 (텍스트 작성하기)
여러가지 상황 조건에 대한 메일 작성하기(텍스트 작성하기)

BM발굴 시에도 도움됨.
뭐뭐뭐 사업 관련  BM발굴 초안을 작성해죠

법적문서검토
기존 문제가 되는 유형을 잘알고 있을까?
문제가 되는 유형을 알려주고?
문제가 되는 유형과 비슷한 벡터값의 문장들을 찾아서 요약해죠 하면 될라나

공공기관, 규제문서(대량의)
관련 검토 요청
위와 같은 패턴으로? 




임베딩은 텍스트 데이터를 수치 벡터로 변환하는 과정 혹은 
단어나 문장의 의미와 특성을 반영한 벡터 표현자체를 말함.
숫자로 된 벡터구조

심층 신경망 기반의 모델
Word2Vec, GloVe, FastText, BERT 등 알고리즘을 이용하여 만듬
TensorFlow, PyTorch, Keras 등을 사용

그러나, 제공되는지는 데이터가 많다고함?

chatGPT에게 임베딩 벡터데이터를 넘겨줄 수는 없음.
GPT도 내부적으로 요청받은 데이터 및 처리하는 데이터는 임베딩처리하여 돌아가는것일뿐.


https://lsjsj92.tistory.com/657

 

OpenAI ChatGPT API를 활용해 추천 시스템 구현하기(feat. HuggingFace)

포스팅 개요 최근 OpenAI에서 ChatGPT의 공식 API가 드디어 공개되었습니다. ChatGPT는 계속해서 이슈가 대두되고 있는 굉장한 모델인데요. 이번 포스팅에서는 파이썬(Python) 환경에서 OpenAI의 ChatGPT API

lsjsj92.tistory.com

예시를 보면, 영화추천서비스 인데,

GPT가 하는 일은 질문에 대한 자연어처리와, 답변에 대한 자연어처리다.
핵심로직은, 개발을 해야됨.
기존 영화추천데이터를 다운받아 벡터화하고
사용자의 질문을 벡터화하여, 두개 간의 유사도를 측정하는 로직

 

아래와 같은 로직에 임베딩(벡터구조) 활용가능함.

  1. 문장 유사도 측정: 임베딩은 문장 간의 의미적 유사도를 측정하는 데 사용됩니다. 임베딩 공간에서 문장 간의 거리 또는 유사도를 계산하여 문장 유사도를 판단할 수 있습니다. 이를 활용하여 문서의 중복 검사, 검색 엔진의 쿼리-문서 매칭, 문장 단위 기계 번역 등에 사용될 수 있습니다.
  2. 단어 간 의미 유사도 계산: 임베딩은 단어 간의 의미적 유사도를 계산하는 데 사용됩니다. 단어의 임베딩 벡터 간의 거리 또는 유사도를 계산하여 단어 간의 관련성을 판단할 수 있습니다. 이를 활용하여 단어의 클러스터링, 유사한 단어 찾기, 단어 간 유추 작업 등에 사용될 수 있습니다.
  3. 감성 분석: 임베딩은 텍스트의 감성을 분석하는 데 사용될 수 있습니다. 감성 단어의 임베딩을 활용하여 텍스트의 긍정적 또는 부정적인 감성을 판단하고 감성 점수를 계산할 수 있습니다. 이를 활용하여 소셜 미디어 감성 분석, 제품 리뷰 분석, 사용자의 감성 분류 등에 사용될 수 있습니다.
  4. 문서 분류 및 클러스터링: 임베딩은 텍스트 문서를 분류하거나 클러스터링하는 데 사용됩니다. 문서의 임베딩 벡터를 계산한 후, 벡터 간의 거리 또는 유사도를 기반으로 문서들을 분류하거나 클러스터링할 수 있습니다. 이를 활용하여 뉴스 기사 분류, 토픽 모델링, 사용자 리뷰 분석 등에 사용될 수 있습니다.

 




+ Recent posts