GPT3는 다음과 같이 16개 언어를 지원한다.
영어 (English)
스페인어 (Spanish)
독일어 (German)
프랑스어 (French)
이탈리아어 (Italian)
포르투갈어 (Portuguese)
네덜란드어 (Dutch)
러시아어 (Russian)
일본어 (Japanese)
한국어 (Korean)
중국어 (중국어 간체와 중국어 번체 둘 다 지원합니다)
아랍어 (Arabic)
힌디어 (Hindi)
노르웨이어 (Norwegian)
스웨덴어 (Swedish)
핀란드어 (Finnish)
영어 외의 다른언어도 중간 영문번역과정을 거쳐서 진행되는 것이 아님
다국어 자체를 그대로 받아들여서 의도를 파악하고 답변을 생성해냄.
즉, 영문학습데이터를 상대적으로 많이 학습한 것으로 확인은 되나,
영어가 아닌 다른 언어에 대한 지원이 되지 않는 것은 아님.
다만, 해당 언어에 대한 학습량이 충분하지 않는 경우에 발생할 수 있는
성능 및 정확도 문제는 있을 수 있다고 답변함.
영문으로 번역된 학습데이터셋을 제공하는 것도 하나의 방법이 될 수있다고는 함.
기존에 학습한 학습데이터셋의 언어비율은 모른다
다만, 인터넷 웹페이지 영어 비율은 50% 이상? 40%?
<관련 통계를 가져왔지만, 미국/유럽 대상의 자료임>
인터넷 상에서 웹페이지의 언어별 비율을 정확하게 파악하기는 쉽지 않습니다.
그러나 W3Techs라는 웹사이트에서는 2023년 3월 현재 인터넷 상에서 가장 많이 사용되는 언어들을 조사하여 그 비율을 공개하고 있습니다.
W3Techs의 데이터에 따르면, 2023년 3월 현재 가장 많이 사용되는 언어는 영어로 약 53.2%의 웹페이지가 영어로 작성되어 있습니다.
이에 이어 중국어(11.8%), 일본어(5.1%), 스페인어(4.7%), 독일어(3.7%) 등이 높은 비율을 차지하고 있습니다.
하지만, 이 데이터는 해당 사이트를 조사한 일부 지역(예를 들어, 미국과 유럽)을 대상으로 한 것이며,
모든 지역을 대상으로 한 것은 아니기 때문에 전체적인 인터넷 웹페이지의 언어별 비율을 정확하게 파악하기는 어렵습니다
'Tech(테크) > AI관련' 카테고리의 다른 글
chatGPT 좀 더 깊게 (0) | 2023.03.28 |
---|---|
chatGPT 학습데이터셋의 신뢰도 측면? (0) | 2023.03.19 |
2023-03 GPT4 발표 (0) | 2023.03.16 |
chatGPT를 통한 개인학습 예시 (0) | 2023.03.10 |
챗GPT 활용분야 (계속 추가) (0) | 2023.03.07 |