박사급 AI라는데 왜 실수를 할까?... 비밀은 ‘감정’에 있다

reporter-profile
박원익 2025.11.28 12:54 PDT
박사급 AI라는데 왜 실수를 할까?... 비밀은 ‘감정’에 있다
일리야 수츠케버(Ilya Sutskever) 세이프 슈퍼인텔리전스(SSI) CEO (출처 : Dwarkesh Patel Podcast, 편집=Gemini)

[AI의 미래] 일리야 수츠케버 대담 해설
패러다임 대전환: 스케일링 법칙의 종언과 연구의 시대
의도치 않은 ‘보상 해킹’ 발생… 일반화 능력 부족해
인간의 ‘가치 함수’와 감정의 중요성
더밀크의 시각: 스케일링을 넘어… SSI와 초지능의 미래

“바이브 코딩(vibe coding, AI 기반 코딩)으로 작업을 한다고 가정해 보죠. 어딘가에 버그가 발생합니다. 그러면 AI에 ‘버그를 고쳐 달라’고 요청합니다. AI 모델은 해당 버그를 수정하며 새로운 버그를 생성합니다. 

당신이 ‘새로운 두 번째 버그가 생겼어’라고 말하면, 모델은 ‘당신 말이 맞습니다’라고 답하며 첫 번째 버그를 되돌려 놓습니다. 이런 일이 실제로 벌어지고 있습니다. 이상한 일이죠.”

변호사 시험을 통과하고, 복잡한 코드를 생성하며 수학 올림피아드에서 금메달(최고 점수)을 기록하는 박사급 AI의 시대. 특정 태스크(task)에서 이미 인간의 능력을 뛰어넘은 강력한 AI가 왜 이런 단순한 실수를 할까. 

AI 최고 전문가 중 하나인 일리야 수츠케버(Ilya Sutskever) 세이프 슈퍼인텔리전스(SSI) CEO는 현재의 AI 기술이 한계에 직면했다고 지적한다. 지난 10년간 AI 발전을 지배해 온 핵심 패러다임 ‘스케일링 법칙(Scaling Laws)’이 해결하지 못하는 영역에 도달했다는 것이다. 인간보다 똑똑한 AI가 때로는 너무나 단순한 실수를 저지르는 이유다. 

그의 주장은 단순한 개인의 의견으로 치부하기 어렵다. 수츠케버는 현대 AI 혁명, 딥러닝의 기폭제가 된 ‘알렉스넷(AlexNet)’의 공동 설계자이자, 오픈AI(OpenAI)의 공동 창업자이자 수석과학자로서 챗GPT(ChatGPT) 개발을 주도했던 인물이기 때문이다. 

수츠케버는 오랜 침묵을 깨고 25일(현지시각) 드와르케시 파텔(Dwarkesh Patel)의 팟캐스트에 출연, “스케일링의 시대(Age of Scaling)에서 연구의 시대(Age of Research)로 이동하고 있다”고 단언했다. 

2024년 5월 오픈AI를 떠나 세이프 슈퍼인텔리전스(SSI)라는 새로운 연구소를 설립한 이후, 그가 대중 앞에서 자신의 기술적 철학과 미래 비전을 구체적, 포괄적으로 밝힌 것은 이번이 처음이다.

👉초지능 AI란 무엇인가? ... 24시간 학습하고 자가발전, 끝은 어디?

자체 코드를 재작성해 스스로 개선하는 AI ‘괴델 머신’에 다윈의 방식을 적용한 연구 모형 (출처 : sakana.ai)

패러다임 대전환: 스케일링 법칙의 종언과 연구의 시대

스케일링 법칙은 현재 AI 업계 흐름을 지배하고 있는 원칙이다. 데이터의 양, 모델 파라미터(매개변수) 수, 투입되는 컴퓨팅 파워를 늘리면 AI 모델의 성능은 예측 가능한 그래프를 그리며 비례적으로 향상된다는 믿음이 널리 퍼져 있는 것이다. 

일리야 수츠케버는 오픈AI 재직 시절 이 법칙의 가장 강력한 신봉자 중 하나였다. 오픈AI가 GPT-2, GPT-3, GPT-4에 걸쳐 보여준 비약적인 성능 향상은 “더 크게, 더 많이” 전략이 유효함을 입증했고, 다른 AI 기업들도 스케일링 경쟁에 뛰어들게 만들었다. 

그러나 수츠케버는 이번 대담에서 이러한 흐름이 근본적인 변화를 맞이했다고 진단했다. 스케일링의 시대에서 연구의 시대로 이동하고 있다는 그의 선언은 단순히 모델의 덩치를 키우는 것만으로는 혁신적인 성능 향상을 기대하기 어렵다는 ‘한계효용 체감’ 선언으로 해석된다.

그의 발언은 현재 AI 산업계가 겪고 있는 ‘데이터 고갈’과 ‘비용 급증’이라는 이중고를 관통한다. 업계에서는 인터넷상의 고품질 텍스트 데이터는 이미 거의 다 학습됐다는 의견이 나오고 있으며 수천억 개의 파라미터를 가진 모델을 학습시키는 데 드는 천문학적인 전력과 비용에 대한 우려도 제기된다. 스케일링 방식으로는 AI 개발의 지속 가능성을 달성할 수 없다는 시각이다.

수츠케버는 “어느 시점에는 사전 훈련(pre-training)에 사용할 데이터가 고갈될 것”이라며 “데이터는 분명히 유한하다. 그다음엔 어떻게 해야 할까? 기존과 다른 방식으로 강화된 사전 훈련을 하거나 강화학습(RL)을 하거나, 다른 방법을 모색해야 한다”고 했다.

👉‘스케일링 법칙’ 결국 승리한다… 그록3로 본 세 가지 교훈

AI 성능 확장 법칙 그래프. 컴퓨팅 파워, 즉 훈련 시간, 추론 시간이 증가할수록 더 우수한 성능을 낸다. (출처 : 오픈AI)

의도치 않은 ‘보상 해킹’ 발생… 일반화 능력 부족해

그렇다면 수츠케버가 말하는 연구의 시대란 구체적으로 무엇을 의미할까? 

오픈AI GPT, 구글 제미나이를 비롯한 대부분의 프론티어 AI 모델의 근간인 ‘트랜스포머(Transformer)’ 아키텍처에 데이터를 쏟아붓는 방식을 넘어 지능의 본질에 더 가까운 새로운 알고리즘과 학습 방법론을 찾아내야 한다는 뜻으로 해석된다.

수츠케버는 현재 AI 모델들이 보여주는 가장 혼란스러운 점 중 하나로 벤치마크(benchmark, 성능 평가)에서 뛰어난 점수를 내지만 실제 경제적 영향은 극적으로 뒤처지는 현상을 지적하기도 했다. 

놀라운 일을 해내면서도 버그를 고쳐 달라고 하면 첫 번째 버그와 두 번째 버그를 무한히 오가는 오류를 일으키는 등 간단한 일도 수행하지 못하는 일이 빈번하다는 것이다. 

그는 이러한 괴리가 발생하는 이유에 대해 두 가지 설명을 제시한다. 하나는 강화학습 훈련이 모델을 지나치게 단일 목표에 집중시켜 다른 측면의 경우 인지 불능 상태로 만들 수 있다는 것이다. 

다른 하나는 연구자들이 평가 지표에 지나치게 집중하는 방식으로 RL 훈련 환경을 구축하면서 이른바 ‘보상 해킹(reward hacking)’이 의도치 않게 일어나고 있다는 지적이다. 

예컨대 문제 풀이 같은 특정 작업 수행에만 지나치게 보상이 집중됨에 따라 시험 문제는 인간보다 잘 풀지만, 평범한 일은 수행하지 못하게 된다. 수츠케버는 이런 AI 모델의 일반화 능력 부족이 가장 근본적인 문제라고 했다. 그는 “특정 코딩 분야만 1만 시간을 투자해 숙련된 학생이 그 외의 분야에서 미숙함을 드러내는 사례와 비슷하다”며 “더 적은 시간을 연습했더라도 폭넓게 익힌 학생이 실전에서 더 잘 할 가능성이 높다”고 했다.

👉얀 르쿤의 AI 강의① : 책만 읽어선 수술 못 해... ‘물리적 직관’을 보라

AI 스케일링 법칙 (출처 : 엔비디아)

인간의 ‘가치 함수’와 감정의 중요성

수츠케버는 AI 모델이 인간보다 훨씬 더 많은 데이터를 필요로 한다며 ‘샘플 효율성’ 문제도 지적했다. 인간은 AI 모델과 비교할 때 더 적은 데이터로도 효율 높은 지적 능력을 보여준다는 설명이다.

그는 이런 차이에 대해 시각, 청각, 운동 능력 같은 생존에 필요한 영역에서 인간이 진화적으로 선험적 지식을 부여받았을 수 있다고 언급하면서도 더 근본적인 무언가가 있다고 추측했다. 

언어, 수학, 코딩 같은 영역에서도 인간이 뛰어난 학습 능력을 보여준다는 이유에서다. 복잡한 선험적 지식보다 더 근본적인 무언가가 존재하기 때문이라는 게 인간의 뛰어난 일반화 능력, 학습 능력이 가능하다는 것. 

그는 이를 설명하기 위해 ‘가치 함수(Value Function)’와 ‘감정(Emotion)’이라는 단어를 사용한다. 뇌 손상, 뇌졸중, 사고 등으로 감정 처리 기능을 상실한 환자들에게서 아주 간단한 작업 수행 능력이 떨어지는 사례가 보고된 바 있다는 것이다. 

예컨대 이 환자들은 감정을 느끼지 못하는 것 외에는 말솜씨가 유창했고 테스트에서도 문제가 없었다. 그러나 양말을 고르는 데 몇 시간이 걸리거나 매우 잘못된 재정적 판단을 내리는 등 특이점이 발견됐다. 

수츠케버는 “감정 중추가 손상된 사례를 언급한 건, 인간의 가치 함수가 진화에 의해 하드코딩된 중요한 방식으로 감정에 의해 조절된다는 점을 시사할 수 있다는 의미”라며 “아마도 그것은 사람들이 세상에서 효과적으로 기능하는 데 중요할지도 모른다”고 했다. 

가치 함수는 강화학습에서 최종 보상까지 기다리지 않고 궤적 내 중간 단계에서 잘하고 있는지 잘못하고 있는지 알려주는 훈련 신호 역할을 하며 학습 과정을 단축시켜 준다. 상대적으로 단순한 감정이 오히려 광범위한 상황에서 유용성을 제공할 수 있다는 맥락이다.

👉[단독] 일론 의견 주입·극단적 선택 조언... AI 문제 어떻게 해결할까?

트랜스포머 아키텍처 기반 단어 생성 과정 예시 (출처 : Google)

더밀크의 시각: 스케일링을 넘어… SSI와 초지능의 미래

특정 영역에서는 초인적이지만, 다른 영역에서는 유아 수준에도 미치지 못하는 ‘울퉁불퉁’한 AI의 능력은 AI 도입의 큰 걸림돌 중 하나다. 

특히 기업 환경은 통제된 실험실이 아니라 예외 상황이 빈번한 ‘지저분한 현실’이다. 고객의 주문 데이터를 처리하다가 AI가 엉뚱한 판단을 내리게 된다면 그 피해가 치명적일 수 있는 것이다. 

결국 일반화 능력을 갖춘 AI, 맥락이 바뀌더라도 논리적 일관성을 유지하며 소량의 데이터로도 새로운 상황에 유연하게 적응할 수 있는 AI의 중요성은 앞으로 더 커질 것으로 예측된다. 

수츠케버가 자신이 설립한 SSI를 통해 달성하려는 지향점이 여기에 있다. 일상적인 시장 경쟁에서 격리, 오직 초지능(Superintelligence) 구축이라는 연구에만 집중해 차이를 만든다는 목표다. 오픈AI를 비롯한 다른 회사들이 다양한 AI 기반 제품 기능 개발에 자금과 컴퓨팅 상당 부분을 사용하는 대신 SSI는 연구에 컴퓨팅 자원을 집중할 계획이다. 

수츠케버는 이와 관련, “인간 역시 AGI(범용인공지능)가 아니라는 점을 깨닫게 됐다. 인간은 방대한 지식을 알고 있는 게 아니라 지속적인 학습에 의존한다”고 강조했다.

그는 이어 “초지능 역시 완성된 것을 제시하는 게 아니라 하나의 과정이 될 것”이라며 “다양한 업무를 배우고 학습 내용을 통합하는 단일 모델을 통해 급속한 경제 성장이 일어날 가능성이 높다고 본다. 5년에서 20년 사이 초지능이 등장할 것”이라고 했다. 

정렬(Alignment, 인간이 의도한 목표나 선호도, 윤리적 원칙에 맞게 AI를 조정하는 것) 문제에 대해서는 “궁극적으로 기업들이 지향해야 할 목표는 지각 있는 생명체에 대한 관심을 견고하게 정렬한 AI를 구축하는 것”이라며 “강력한 초지능의 힘을 어떤 식으로든 제한하는 게 실질적으로 매우 도움이 될 것”이라고 했다. 

분명한 건 2025년 말이 AI 역사의 중대한 변곡점이라는 사실이다. 오픈AI, 구글, 앤트로픽의 진격을 바라만 보고 있을 것이 아니라 딥시크 사례처럼 새로운 알고리즘과 창의적인 연구 방법론을 찾기 위해 적극적으로 도전할 필요가 있다. 

AI가 모든 것을 해결해 줄 것이란 시각에서도 벗어나야 한다. 박사급 AI도 여전히 어이없는 실수를 저지르는 것이 지금의 현실이다. AI로 생산성을 높이면서 동시에 AI가 저지르는 오류를 잡아낼 수 있는 능력이 요구되는 시대다.

👉'영혼의 컴백' 오픈AI 떠난 수츠케버, SSI 설립... 슈퍼인텔리전스 가까워

회원가입 후 뷰스레터를
주 3회 무료로 받아보세요!

단순 뉴스 서비스가 아닌 세상과 산업의 종합적인 관점(Viewpoints)을 전달드립니다. 뷰스레터는 주 3회(월, 수, 금) 보내드립니다.