LLM의 다음 진화: 피지컬 AI는 어떻게 ‘현실 세계’를 학습하는가?
[피지컬 AI 최전선] 앤디 정 제너럴리스트 공동창업자
엔비디아·베조스 투자 받은 AI 스타트업… K-이노베이션 나이트 기조연설
‘프로그램된 완벽함’의 허상과 인간의 ‘직관적 물리학’
27만 시간, 46년의 경험... ‘스케일링 법칙’ 로봇에 적용하다
실수를 스스로 수정하는 로봇… “마법 같은 일”
더밀크의 시각: 원샷 어셈블리… 피지컬 AI 혁명 온다
2022년 11월 30일, 오픈AI가 챗GPT를 공개했을 때 전 세계는 대규모 언어 모델(LLM)이 보여준 유창함과 추론 능력에 압도됐다. AI가 시를 쓰고, 코딩을 하며 인간의 언어로 복잡한 철학적 난제를 논할 수 있게 됐기 때문이다.
‘지식’의 영역에서 AI는 인간을 넘어서거나 대등한 수준에 도달한 것처럼 보였다. 그러나 디지털 세계를 벗어나면 여전히 풀리지 않는 문제가 자리 잡고 있었다. ‘물리적 현실 세계(Physical World)’라는 장벽이었다.
디지털 세계에서 박사급 인재처럼 보이는 AI가 왜 현실 세계에서는 유치원 아이보다 못한 존재가 되는걸까? 왜 AI는 어린이도 하는 식기세척기에 그릇을 넣거나 흐트러진 빨래를 개는 단순한 작업을 수행하지 못하는 이유는 뭘까.
이 오래된 난제, 즉 ‘모라벡의 역설(Moravec's paradox)’은 로봇 공학이 수십 년간 넘지 못한 거대한 산이었다. 텍스트와 이미지 데이터는 인터넷상에 무한히 존재하지만, 로봇이 현실과 부딪히며 배우는 ‘행동 데이터’가 턱없이 부족하기 때문이라는 게 전문가들의 진단이다.
이러한 상황에서 2024년 샌프란시스코에 설립된 로봇 AI 스타트업 ‘제너럴리스트 AI(Generalist AI, Inc.)’가 새로운 돌파구를 마련, 업계의 주목을 받고 있다. 언어 모델을 넘어 물리 법칙을 이해하며 현실 세계에서 스스로 판단하고 행동할 수 있는 ‘피지컬 AI(Physical AI, 물리적 AI)’ 특화 파운데이션(foundation, 기초) 모델 ‘GEN-0’를 선보인 것이다.
일찌감치 피지컬 AI의 가능성을 알아본 엔비디아와 제프 베조스 아마존 창업자의 투자 회사 베조스 익스페디션(Bezos Expeditions) 등이 제너럴리스트의 초기 투자자로 참여해 이들의 혁신을 지원하고 있다.
제너럴리스트 공동창업자이자 최고과학책임자(Chief Scientist)인 앤디 정(Andy Zeng)은 기존의 로봇 공학이 간과해왔던 미지의 영역에 답이 있다고 주장한다. 로봇이 통제된 실험실을 벗어나 실제 현실 세계에서 가치를 창출하려면 단순한 지능을 넘어 인간이 본능적으로 지닌 ‘물리적 상식(Physical Commonsense)’을 갖춰야 한다는 것이다.
더밀크가 CES 2026를 맞아 7일(현지시각) 라스베이거스에서 개최한 ‘K-이노베이션 나이트’에 기조연설로 참여한 정 공동창업자는 “우리 모두 물리적 상식이 존재해야 한다는 건 알지만 정확히 규명하기 어렵다. 인간에게는 너무나 쉽지만 기계에게는 지극히 어렵다”며 물리적 상식을 로봇 지능(Embodied Intelligence)의 ‘암흑 물질(Dark Matter)’에 비유했다.
우주 암흑 물질처럼 정확히 규명하기는 어렵지만, 피지컬 AI 분야에 꼭 필요한 게 물리적 상식이라는 설명이다. 이를 위해 제너럴리스트는 인터넷 텍스트가 아닌 실제 물리적 세계의 경험 데이터를 대규모로 학습시키는 파격적인 전략을 전개하고 있다.
‘프로그램된 완벽함’의 허상과 인간의 ‘직관적 물리학’
앤디 정 공동창업자는 오늘날 산업 현장의 로봇들이 의존하는 방식을 “프로그램된 완벽함(programmed perfection)”이라고 꼬집었다. 미리 입력된 좌표와 동작을 기계적으로 반복하는 기존 로봇은 환경이 조금만 바뀌어도 무기력해질 수밖에 없다.
그는 독일의 한 핫도그 제조 로봇을 예로 들며 기존 시스템의 취약성을 지적했다.
그는 “로봇은 빵이 없는데도 핫도그 소시지를 허공에 놓으려 하고, 이미 실패했음에도 마치 빵이 있는 것처럼 포장지를 씌우는 동작을 맹목적으로 반복한다”며 “결국 그 로봇이 얻은 것은 덩그러니 놓인 핫도그 소시지뿐이었다”고 했다.
반면 인간은 다르다. 인간은 꽉 찬 선반에서 물건을 꺼낼 때 엄지로 옆 물건을 살짝 밀어 공간을 확보하는 ‘직관’을 가지고 있다. 어린 시절부터 컵에서 물을 붓거나 쏟으며 경험을 통해 유체의 움직임을 피부로 느끼고 체득하고 있는 것도 같은 맥락이다. 앤디 정은 이러한 인간의 능력을 ‘직관적 물리학(Intuitive Physics)’, ‘물리적 상식’으로 정의하며 이것이야말로 피지컬 AI 시대 로봇이 갖춰야 할 핵심 능력이라고 강조했다.
챗GPT와 같은 LLM이 방대한 지식은 갖췄을지 몰라도 물리적 상식은 제대로 갖추지 못했다는 게 그의 진단이다.
정 공동창업자는 “(피지컬 AI 분야에 LLM을 활용하는 건) 마치 캘리포니아 DMV(차량관리국) 핸드북(운전면허 시험 준비용 안내서)만 달달 외우고 운전면허 실기 시험을 보러 가는 것과 같다”며 “텍스트 데이터만으로는 찰나의 반응 속도나 타인의 의도 파악이 중요한 현실 세계의 물리적 상호작용을 해낼 수 없다”고 했다.
27만 시간, 46년의 경험... ‘스케일링 법칙’을 로봇에 적용하다
제너럴리스트의 해법은 명확하다. LLM이 인터넷 텍스트로 지식을 배웠듯이 로봇에게도 대규모 물리적 경험 데이터를 학습시키는 것이다.
앤디 정 공동창업자는 “충분히 큰 모델을 물리적 경험 데이터로 훈련시키면 물리적 상식을 얻을 수 있다는 가설”을 증명하기 위해 구글 딥마인드를 떠나 회사를 창업했다고 밝혔다.
이를 위해 제너럴리스트는 전 세계에 수천 개의 데이터 수집용 핸드헬드 그리퍼(Handheld Gripper)를 배포했다. 사람들이 뜨개질부터 오렌지 썰기, 주방 요리까지 다양한 작업을 직접 수행하며 생성한 데이터를 모으기 위해서다.
그 결과 2025년 11월 기준으로 제너럴리스트는 역대 최대 규모인 ‘27만 시간 분량의 실제 조작 데이터’를 확보했다. 이는 인간이 깨어있는 시간으로 환산하면 약 46.2년에 해당하며 역사상 만들어진 모든 영화의 영상 길이를 합친 것보다 방대한 양이다.
이 데이터를 바탕으로 개발된 제너럴리스트의 파운데이션 모델 ‘GEN-0’는 100억(10B) 파라미터 규모로, 시각 정보와 감각 입력을 처리해 실시간으로 행동을 생성한다. 앤디 정 공동창업자는 “로봇 공학에서 최초로 스케일링 법칙(Scaling Laws)을 확인했다”고 강조했다.
10억 파라미터 수준의 상대적으로 작은 모델은 데이터가 많아지면 오히려 성능이 정체되는 ‘경화(ossification)’ 현상을 보였지만, 70억 파라미터 이상의 모델부터는 방대한 데이터를 흡수하며 지능의 ‘위상 전이(phase transition)’를 일으켜 성능이 비약적으로 향상됨을 입증했다는 설명이다.
실수를 스스로 수정하는 로봇… “마법 같은 일”
이렇게 학습된 로봇은 단순한 반복 작업을 넘어 상황에 맞춰 유연하게 대처하는 놀라운 적응력을 보여준다. 앤디 정 공동창업자는 제너럴리스트의 파운데이션 모델 기반 로봇이 물리적 상식을 학습했다는 걸 보여주는 구체적인 사례들을 공개했다.
첫 번째는 이더넷 케이블을 정교하게 연결한 사례다. 앤디 정 공동창업자가 공개한 영상에서 로봇 팔은 이더넷 케이블을 포트에 꽂는 작업에서 단순히 좌표로 이동하는 것이 아니라 인간처럼 딸깍 소리가 날 때까지 ‘포트를 비틀어 맞추는(twist until it hears a click)’ 미세한 조작 능력을 보여줬다. 이는 시각 정보뿐만 아니라 물리적 피드백을 이해하고 있음을 시사한다.
두 번째는 얇은 물체를 전략적으로 집는 사례다. 바닥에 밀착된 얇은 물체는 틈이 없어 집기가 쉽지 않다. 로봇은 이를 억지로 집으려 하지 않고 해당 물체를 벽면이나 구석으로 밀어 잡을 수 있는 공간을 만든 뒤 집어 올렸다. 이는 인간이 본능적으로 사용하는 방식과 동일하다.
세 번째는 미끄러짐 방지 및 회복 탄력성에 관한 것이었다. 무거운 클립 상자를 들어 올리다 미끄러질 뻔하자, 로봇은 당황하지 않고 상자를 작업 도중 내려놓고 다시 단단히 잡는(regaining grip) 모습을 보여줬다. 또한 사람이 작업 중인 상자 덮개를 강제로 눌러 방해해도, 로봇은 상황을 인식하고 다시 시도해 결국 상자를 닫는 데 성공했다.
복합적인 과제도 해결할 수 있다. 카메라를 포장하는 작업에서 로봇은 단순히 물건을 옮기는 걸 넘어 인간처럼 작업할 수 있었다. 청소용 천을 상자에 넣고, 골판지 상자를 접은 후 카메라를 집어 비닐 봉지에서 꺼낸 후 카메라를 상자에 넣고, 상자를 닫은(작은 덮개를 끼운) 다음 비닐 봉지를 쓰레기통에 버리는 일련의 과정을 매끄럽게 수행했다.
정 공동창업자는 “매일 사무실에서 물리적 상식이 구현되는 경이로운 순간들을 목격할 수 있다는 건 행운이자 마법 같은 일”이라며 “로봇이 작업을 수행하는 모습을 지켜보다가 ‘와’ 하고 감탄하는 순간이 수없이 많았다”고 했다.
더밀크의 시각: 원샷 어셈블리… 피지컬 AI 혁명 온다
가장 압권은 ‘원샷 어셈블리(One-shot assembly)’라 불리는 레고 조립 시연이었다. 앤디 정은 “지금까지 본 로봇의 손재주와 조작 능력 중 가장 인상적인 성과”라고 자평했다.
로봇은 레고 블록을 조립할 때 홈이 맞지 않음을 감지하자 무작정 누르지 않고 ‘살짝 밀어 넣은 다음(nudge it in) 눌러 붙이는’ 미세 조정을 수행했다. 더 놀라운 것은 로봇이 완성해야 할 목표 형태를 인지하고, 필요한 부품(빨간색 블록 등)을 찾아 주변을 탐색하며 계획을 세운다는 점이었다. 이는 직관적인 반사신경(시스템 1)과 고차원적인 계획(시스템 2) 능력이 하나의 모델 안에서 통합돼 작동함을 의미한다.
젠슨 황 엔비디아 CEO가 “올해 ‘인간 수준(human level)’의 로봇이 등장할 것으로 생각한다”는 과감한 예측을 내놓은 배경이 여기에 있다. 피지컬 AI 모델이 빠르게 발전하면서 로봇이 할 수 있는 작업 자체가 과거와 차원이 다른 수준으로 진보할 수 있는 것이다.
올해부터 전 세계는 로봇이 매우 빠른 추론을 할 수 있게 되고, 추가 지식이 필요할 때는 클라우드에 있는 AI를 활용해 작업을 수행하는 모습을 보게 될 것이다. 본격화될 피지컬 AI 혁명의 물결에 올라타는 기업은 거대한 기회를 잡을 수 있다.
👉“인간 수준 로봇 올해 등장… 알파마요, 테슬라와 다르다” 젠슨 황이 본 미래
앤디 정 공동창업자는 “진정한 범용 지능은 오직 물리적 경험을 통해서만 탄생할 수 있다”며 “미래에는 농업, 건설, 물류 등 삶의 모든 영역에서 로봇이 인간을 돕는 세상이 올 것이다. 우리가 만든 모델이 그 기반이 될 것”이라고 했다.
제너럴리스트AI의 시도가 더 중요한 의미는 지능의 정의 자체를 바꿀 수 있는 잠재력이 있다는 것이다.
이 로봇들이 보여준 핵심 능력은 ‘정확함’이 아니라 회복 탄력성(resilience)이다. 실패를 감지하고, 멈추고, 전략을 바꾸고, 다시 시도하는 능력. 이는 통제된 공장 환경이 아니라, 예외와 불확실성이 기본값인 현실 세계에서 작동하는 지능의 조건이다.
이 순간부터 로봇은 단순한 자동화 장비가 아니라, 현실 세계에서 일할 수 있는 경제적 주체로 진입한다. 그리고 이는 로봇 산업의 문제가 아니라, 노동·생산성·산업 구조 전반의 문제로 확장될 수 있다.
제너럴리스트 AI의 사례는 단순한 스타트업 성공담이 아니다. AI가 이제 화면 속을 넘어 현실 세계로 내려오고 있다는 신호, 그리고 그 현실 세계야말로 한국이 가장 잘 아는 무대라는 점을 동시에 보여준다.