오픈AI, 챗GPT 성능 끌어올릴 ‘GPT-4’ 공개... 무엇이 달라졌나?

reporter-profile
박원익 2023.03.14 17:47 PDT
오픈AI, 챗GPT 성능 끌어올릴 ‘GPT-4’ 공개... 무엇이 달라졌나?
(출처 : OpenAI/ 디자인: 김현지)

샘 알트만 오픈AI CEO “가장 성능 뛰어나고 잘 정돈된 모델”
이미지도 입력으로 인식·고급 추론 성능
생물학 올림피아드 상위 1%... 안정성도 높여
GPT-4 메모리도 늘어… 최대 토큰 수 3만2768개

인공지능 기술 업체 오픈AI(OpenAI)가 최신 거대언어모델(LLM) GPT-4를 14일(현지시각) 전격 공개했다. 

오픈AI에 따르면 이 모델은 어떤 언어모델보다 창의적이고 협력적이며 폭넓은 일반 지식과 문제 해결 능력을 갖췄다.

또 이미 교육 기술(EdTech) 기업 듀오링고(Duolingo), 칸아카데미, 핀테크(FinTech) 스타트업 스트라이프(Stripe) 등과 파트너십을 맺고 제품에 GPT-4를 통합한다고 밝혔다.

새로운 모델은 대화형 AI 모델 챗GPT 유료 버전(ChatGPT Plus)에 적용됐다. 대기(waitlist)를 거쳐 API(애플리케이션 프로그램 인터페이스)로도 제공될 예정이다. 

샘 알트만 오픈AI CEO는 트위터를 통해 “GPT-4는 가장 성능이 뛰어나고 잘 정돈된 모델”이라며 “지금 바로 챗GPT 플러스와 API로 사용할 수 있다”고 밝혔다. 

그는 “여전히 결함이 있고, 아직 제한적인 면이 있다”며 “처음 사용했을 때 더 큰 인상을 받게 될 것”이라고 했다.

이미지도 입력으로 인식·고급 추론 성능

GPT-4와 이전 모델인 GPT-3의 가장 큰 차이점은 이미지를 입력(input)으로 활용할 수 있다는 점이다. 텍스트(Text, 문자) 데이터만 학습한 GPT-3와 달리 이미지까지 함께 학습, 이미지 기반 맥락을 이해하고 대답을 내놓을 수 있는 ‘멀티모달(Multimodal, 다중모드)’ 생성 AI 모델이다. 

예컨대 GPT-4 기반으로 작동하는 챗GPT 플러스에 계란, 우유, 밀가루가 있는 사진을 입력한 뒤 “이 재료들로 어떤 요리를 만들 수 있나요”라고 물으면 팬케이크, 크레페, 프렌치토스트 같은 답을 출력할 수 있다. 사람처럼 서로 다른 양식의 정보인 이미지와 텍스트를 동시에 인식, 이를 활용한 답을 내놓을 수 있는 셈이다. 

지금까지의 AI는 이미지, 음성, 언어 등 특정 분야에 특화된 작업을 수행하도록 학습·개발돼 왔는데, 이는 단일 양식의 데이터 샘플을 제공하기가 상대적으로 쉬웠기 때문이다. 그러나 인간처럼 종합적으로 현상을 인식해 문제를 해결하는 성능이 필요하다는 인식이 대두되며 구글, 메타(페이스북 모회사), 오픈AI 등이 멀티모달 학습 및 모델 개발을 추진해 왔다.  

GPT-4는 또한 고급 추론(reasoning) 기능을 갖추고 있다. 예컨대 서로 다른 세 사람이 ‘30분 미팅’ 일정을 잡아야 할 때 GPT-3.5 버전인 챗GPT보다 뛰어난 답을 내놓는 식이다. 오픈AI가 제시한 데모에 따르면 챗GPT는 잘못된 답을 제시한 반면, GPT-4는 세 사람의 미팅 가능 시간을 활용, 모두 가능한 미팅 시간을 더 정확히 찾아내 제시했다. 

GPT-4가 이미지를 인식해 이상한 점이 무엇이냐는 질문에 답을 하고 있다. (출처 : OpenAI)

생물학 올림피아드 상위 1%... 안정성도 높여

미국 변호사 시험(Uniform Bar Exam), 생물학 올림피아드(Biology Olympiad) 같은 시험 응시 결과 역시 챗GPT보다 우수했다. 백분위 기준으로 변호사 시험은 GPT-4가 99%, 챗GPT는 10%다. GPT-4와 같거나 낮은 점수를 받은 응시자가 90%라는 뜻으로 상위 10%에 해당하는 성적이다. 생물학 올림피아드의 경우 99%로 상위 1%에 랭크됐다. 챗GPT는 31%였다.

GPT-4는 2만5000단어 이상 장문 텍스트를 처리할 수 있으며 분량이 긴 텍스트 콘텐츠 제작이 가능하다. 문서 검색 및 분석 용도로 사용할 수도 있다. 

오픈AI는 또 GPT-4가 보다 안전하다고 강조했다. 허용되지 않는 컨텐츠에 대한 요청에 응답할 가능성이 82% 줄었고, 내부 평가에서도 GPT-3.5보다 사실에 입각한 응답을 하는 비율이 40% 높아졌다는 설명이다. 

미라 무라티 오픈AI 최고기술책임자(CTO)는 “멀티모달 모델인 GPT-4는 다양한 전문 및 학술 벤치마크(기준점)에서 인간 수준의 성능을 발휘한다”며 “반복적인 정렬 및 테스트를 통해 사실성(factuality), 조향성(steerability, 통제 가능 정도) 및 안전성(safety)에 있어 역대 최고의 모델”이라고 강조했다.

챗GPT와 GPT-4 추론 성능 비교 (출처 : OpenAI)

GPT-4 메모리도 늘어… 최대 토큰 수 3만2768개

GPT-4의 성능에 영향을 미치는 또 한가지 요인은 메모리 성능이다. GPT-3.5 기반의 챗GPT가 대화할 때 기억할 수 있는 단어 수에 비해 GPT-4 기반인 챗GPT 플러스가 기억할 수 있는 단어 수가 훨씬 많다. 

거대언어모델은 웹페이지, 책 등 다양한 텍스트를 학습하는데, 이렇게 만들어진 모델이 단순히 학습량만 많은 게 아니라 기억할 수 있는 데이터 양도 많아진 것이다. 이는 맥락을 잘 파악하는 능력과 연결된다. 친구와 대화를 나눌 때 상대방이 대화 중 얘기한 정보를 잘 기억하고 있으면 더 수월하게 대화할 수 있는 것과 마찬가지다. 

오픈AI에 따르면 GPT-4는 최대 3만2768개 맥락(context) 토큰(단어, 형태소 등으로 잘게 나눈 자연어의 단위)을 제공한다. 이는 약 6만4000단어, 50페이지 분량의 텍스트에 해당하는 분량으로 AI와 대화를 나눌 때 최대 50페이지를 기억할 수 있다는 의미다. 이어지는 대화라면 한참 전에 나눈 정보를 기억해 답을 할 수 있고, 텍스트를 작성할 때도 40페이지 앞의 내용을 기억해 언급하는 게 가능하다. 

한국어, 이탈리아어, 우크라이나어 등 26개 언어에 걸쳐 더 많은 언어를 지원한다는 점도 특징이다. 아직 한계는 있지만, 비영어권 사용자들의 접근성을 훨씬 높이는 업데이트라고 할 수 있다.

GPT-4와 GPT-3.5 시험 성적 비교. GPT-4의 성적이 우수하다는 것을 확인할 수 있다. (출처 : OpenAI)

더밀크의 'GPT-4 더 이해하기'

회원가입 후 뷰스레터를
주 3회 무료로 받아보세요!

단순 뉴스 서비스가 아닌 세상과 산업의 종합적인 관점(Viewpoints)을 전달드립니다. 뷰스레터는 주 3회(월, 수, 금) 보내드립니다.