[총정리] 미토스 5 넘었다… 오픈AI GPT-5.6가 보여준 ‘모델 통제’ 새 질서

박원익 2026.06.26 15:11 PDT

공유하기 선물하기

이 기사를 지금 공유해보세요.

이 기사에 관심이 있을 만한 사람들과 공유하고 더밀크를 추천해주세요.

Facebook

Twitter

Kakaotalk

LinkedIn

[총정리] 미토스 5 넘었다… 오픈AI GPT-5.6가 보여준 ‘모델 통제’ 새 질서

오픈AI의 새로운 AI 모델 ‘GPT-5.6’ 솔, 테라, 루나 (출처 : OpenAI)

[오픈AI, GPT-5.6 출시의 의미]
태양계에서 따온 새 명명 체계… 세대·역할 동시 표시
GPT-5.6, 무엇이 다른가?... 세 가지 벤치마크
추론의 새로운 차원 맥스·울트라... 업무 방식 바꾼다
“역대 최강 안전장치”… 정부 요청으로 20곳 우선 접속
배포 방식 바뀐다… ‘모델 통제’ 표준되나
더밀크의 시각: 프런티어 AI, 새 질서를 준비하라

“AI는 어떤 장애물에도 부딪히지 않고 계속 발전하고 있다.”

오픈AI의 새로운 AI 모델 ‘GPT-5.6’ 출시 소식에 애런 레비 박스(Box) CEO가 내놓은 반응이다. 앤트로픽의 클로드 미토스 5를 뛰어넘는 새 모델의 벤치마크(benchmark, 성능 평가) 데이터를 공유하며 놀라움을 나타낸 것이다.

미국 정부가 국가 안보 위협 및 악용 가능성을 이유로 미토스 5의 수출을 통제한 게 지난 12일이었다. 이로부터 불과 2주만인 26일(현지시각) 오픈AI는 미토스 5를 능가하는 GPT-5.6을 공개했다. GPT-5.6 미국 정부에 참여 사실이 통보된 소수의 신뢰할 수 있는 파트너 그룹을 대상으로 제한된 미리보기(preview) 형태로 먼저 공개됐다.

GPT-5.6은 플래그십 모델 Sol(솔), 일상 업무용 모델 Terra(테라), 고속·저비용 모델 Luna(루나) 세 가지 버전으로 구성됐다. 테라는 GPT-5.5 수준의 성능을 2배 낮은 비용에 제공하며, 루나는 최저 비용으로 충분히 강력한 성능을 제공한다는 설명이다.

태양계에서 따온 새 명명 체계… 세대·역할 동시 표시

오픈AI는 GPT-5.6에서 새로운 명명 체계를 도입했다. 숫자(5.6)는 모델 세대를 식별하고, 솔·테라·루나는 각기 독립적인 속도로 발전할 수 있는 지속적인 역량 등급을 나타낸다. 이런 구성은 사용자, 개발자들에게 지능·속도·비용 측면에서 더 명확한 선택지를 제공할 수 있다.

작명의 영감은 태양계에서 얻었다. 솔(태양), 테라(지구), 루나(달)의 계층 구조는 각 모델의 성능과 가격 포지셔닝을 직관적으로 반영한다.

기존의 ‘나노’, ‘미니’ 같은 모델 크기 중심 명칭에서 벗어나 용도 중심 브랜딩으로 전환한 것이다. 사용자들의 선택을 돕는 사용자 친화적인 변화로 평가된다.

오픈AI의 새로운 AI 모델 ‘GPT-5.6’ 코딩 벤치마크 더미널벤치 점수 (출처 : OpenAI)

GPT-5.6, 무엇이 다른가?... 세 가지 벤치마크

①코딩: 터미널 벤치 2.1 신기록

오픈AI에 따르면 GPT-5.6 솔(울트라 모드, 서브에이전트 활용)은 코딩 성능을 평가하는 터미널-벤치 2.1(TerminalBench 2.1)에서 91.91%라는 최고 점수를 달성했다. 터미널-벤치 2.1은 계획 수립, 반복 작업, 도구 조율이 필요한 복잡한 커맨드라인 워크플로(workflow, 업무 흐름)를 평가하는 벤치마크다.

이는 클로드 미토스 5의 88%를 크게 넘어선 점수다. GPT-5.6 솔은 맥스(max, 추론 시간 최대)에서도 88.76% 점수를 기록하며 미토스 5를 앞섰다. AI 에이전트(agent, 대리인)에 코딩 작업에서 탁월한 결과를 낼 수 있는 모델이라는 의미다.

벤처비트에 따르면 GPT-5.6 솔은 55개 전문 분야에 걸쳐 장시간 워크플로를 테스트하는 ‘에이전트의 마지막 시험(Agent’s Last Exam, ALE)’에서도 50.9%를 기록, 유일하게 50% 문턱을 넘었다.

②생물학: 유전체·정량 분석 개선

장기적 관점의 유전체학 및 정량생물학 분석을 평가하는 진벤치 v1(GeneBench v1)에서도 GPT-5.6 솔은 GPT-5.5보다 강력한 결과를 더 적은 토큰(token, AI가 생성하거나 처리하는 데이터의 최소 단위)으로 달성했다.

과학 연구 및 신약 개발 등 코딩을 제외한 다른 분야에서도 모델의 활용 잠재력이 높은 것이다. 기초 과학의 중요성을 고려할 때 GPT-5.6 같은 모델은 국가 전략 자산으로 취급될 수밖에 없다는 평가도 나온다.

③사이버 보안: 토큰 3분의 1로 미토스 프리뷰와 가까운 성능

사이버 보안 성능을 평가하는 익스플로잇벤치(ExploitBench) 점수도 놀랍다. GPT-5.6 솔은 출력 토큰의 약 3분의 1만 사용하면서 73.5%를 기록, 앤트로픽의 미토스 프리뷰(74.2%)와 가까운 수준의 성능을 기록했다.

이는 미토스 수준의 공격 취약점 분석을 훨씬 낮은 연산 비용으로 달성할 수 있다는 의미다.

오픈AI의 새로운 AI 모델 ‘GPT-5.6’ 코딩 사이버 보안 벤치마크 익스플로잇 점수 (출처 : OpenAI)

OpenAI추론의 새로운 차원 맥스·울트라… 업무 방식 바꾼다

오픈AI는 GPT-5.6과 함께 모델에 가장 긴 추론 시간을 부여하는 새로운 ‘맥스(max)’ 추론 설정(reasoning effort)을 도입했다.

또한 단일 에이전트 역량을 넘어 복잡한 작업을 가속화하기 위해 서브에이전트(subagent, 보조 에이전트)를 활용하는 새로운 ‘울트라(ultra)’ 모드도 선보였다.

복잡한 연구·분석·코딩 작업을 복수의 AI 에이전트가 병렬 처리, 단일 모델의 한계를 구조적으로 돌파하는 방식이다.

GPT-5.6의 토큰당 가격도 주목할 만하다. 솔은 입력 시 100만 토큰당 5달러, 출력 시 100만 토큰당 30달러로 가격이 책정됐다. 테라는 입력 2.50달러, 출력 15달러이며 루나는 입력 1달러, 출력 6달러다. 솔의 가격이 GPT-5.5와 동일하게 책정됐지만, 성능은 도약했다는 점에서 업계의 이목을 끈다.

“역대 최강 안전장치”… 정부 요청으로 20곳 우선 접속

강력한 모델의 성능만큼 안전장치도 중요하다.

오픈AI는 GPT-5.6에 역대 가장 강력한 안전장치를 적용했다고 밝혔다. 고위험 활동, 민감한 사이버 요청, 반복적 오용에 대한 보호를 강화했고 취약점 발굴과 실제 공격에 대한 시스템 강화에 노력을 기울였다는 설명이다.

특히 70만 A100(엔비디아 GPU) 상당의 시간을 자동화 레드팀(보안 테스트) 활동에 투입해 다양한 프롬프트, 맥락에서 통용되는 공격, 즉 ‘보편적 탈옥(universal jailbreaks)’을 찾아내는 데 주력했다.

이런 방법으로 이미 알려진 고정된 오류 세트 이상의 범위에서 안전을 테스트할 수 있었다는 것이다. 자동화된 레드팀 테스트 외에도 외부 전문가들과 협력해 광범위한 전문가 주도 레드팀 테스트를 수행했다.

오픈AI의 새로운 AI 모델 ‘GPT-5.6’ 솔, 테라, 루나 비용 (출처 : OpenAI)

배포 방식 바뀐다… ‘모델 통제’ 표준되나

가장 주목할 대목은 배포 방식이다.

GPT-5.6은 정부가 참여를 승인한 약 20개 기업 대상으로 제한 프리뷰 형태로 제공된다. 앤트로픽 미토스와 달리 오픈AI는 처음부터 정부의 허가를 받는 방식으로 모델 배포 방식을 적용한 셈이다. 오픈AI는 다음 주부터 더 많은 기업으로 접근을 확대할 계획이며 수 주 내 광범위한 출시를 목표로 하고 있다.

GPT-5.6의 제한적 출시는 미국 정부의 직접적인 요청에 따른 것이다. 트럼프 대통령이 2026년 6월 2일 서명한 행정명령은 연방 기관들이 협력해 새로운 AI 모델의 역량을 벤치마킹하고 평가하는 절차를 수립하도록 요구하고 있으며 이 절차가 완료되기까지 30일이 걸린다고 명시했다.

오픈AI는 “우리는 이런 정부의 승인 절차가 장기적 표준이 돼서는 안 된다고 생각한다”면서도 “향후 몇 주 내에 서비스를 더 폭넓게 제공할 수 있는 가장 확실한 방법이라고 판단했다”고 설명했다.

업계 전문가들은 이번 출시를 계기로 AI 거버넌스 패러다임의 변화가 시작됐다는 분석을 내놓는다.

미 행정부는 AI 모델의 사이버 역량을 평가하고 어떤 모델이 ‘커버드 프런티어 모델’로 지정할 것인지를 결정하는 기밀 절차를 수립할 전망이다. 커버드 프런티어 모델은 고도의 사이버 역량을 가진 AI 시스템에 적용되는 개념이다.

앤트로픽 미토스 5, 페이블 5 금지 사태 이후 과도한 미국 AI 의존에 대한 경각심도 높아지는 분위기다. AI 모델에 대한 접근권이 반도체 수출 통제에 이어 지정학적 레버리지 수단으로 부상하고 있다는 관측도 제기된다.

앤트로픽 클로드 페이블 5 에이전틱 코딩 벤치마크 점수 비교 (출처 : Anthropic, 편집=Gemini)

더밀크의 시각: 프런티어 AI, 새 질서를 준비하라

GPT-5.6의 등장은 중장기 산업 구조에도 중요한 시사점을 던진다.

가장 두드러진 변화는 성능 기준의 재설정이다. 터미널-벤치 2.1과 같은 전문 벤치마크에서 GPT-5.6이 이전 최고 기준이었던 미토스 5를 추월함으로써 AI 성능 개선에 한계가 올 것이란 일부의 시각이 깨졌다. 앞으로도 더 강력한 모델의 등장이 이어질 전망이다.

GPT-5.6에 새롭게 적용된 ‘울트라 모드’는 멀티 에이전트 시대의 본격화를 알리는 신호다. 여러 개의 서브에이전트 군을 병렬로 사용하며 조율하는 울트라 모드로 업무 방식 자체를 재정의하는 일들이 벌어질 수 있다. 특히 코딩, 보안 감사, 장기 과학 연구 등의 분야의 도입 속도가 빨라질 것으로 예측된다.

정부 승인 기반 모델 배포 방식은 확산될 가능성이 크다. 오픈AI의 이번 GPT-5.6 출시 방식은 향후 프런티어 AI 모델 출시가 시장 논리만이 아닌 국가 안보 개념으로 확장, 정착될 것임을 시사한다.

외국 기업 입장에서는 AI 도입 타임라인이 규제 변수에 의해 결정되는 현실을 받아들여야 할 가능성이 커졌다. 공급망 다변화를 통해 리스크를 줄이고, 공공기관, 방위산업체를 비롯한 일부 안보 부문에서는 소버린 AI 개발 및 도입 전략을 서둘러야 한다.

다행히도 한국은 국가 전략 산업인 반도체 분야에서 엔비디아 같은 미국 팹리스 기업들과 밀접하게 협업하는 산업 구조를 구축한 경험이 있다. 반도체 공급망에서 배운 교훈을 AI에도 적용, 미국 AI의 접근권을 확보하는 구조를 구축하는 지혜를 발휘할 필요가 있다.

👉우리는 외국인이다...소버린AI의 핵심은 '접근권 주권'

🚀 더밀크 구독하기

👉 미토스 페이블5 사태: AI 안전의 정치경제학!