피지컬 AI가 공장을 점령한다… 2026년, 로봇 노동 시대 개막

reporter-profile
박원익 2025.12.13 16:00 PDT
피지컬 AI가 공장을 점령한다… 2026년, 로봇 노동 시대 개막
(출처 : Gemini, 박원익)

[글로벌 AX 혁명] 얀 르쿤과 페이페이 리가 보낸 시그널
피지컬 AI·월드 모델·VLA 총정리: 로봇 자동화의 다음 10년
인지에서 행동으로의 도약… 두 가지 트리거
피지컬 AI가 여는 산업 자동화의 새 질서... C-레벨이 지금 결정해야 할 5가지
더밀크의 시각: C-Level 액션 플랜 수립 가이드

“향후 5년에서 10년 내 피지컬 AI(Physical AI) 기반 로봇이 공장 작업의 대부분을 자동화할 것이다.”

미국 샌프란시스코에서 열린 ‘브레인스톰 AI(Brainstorm AI)’ 현장. 전 세계 모바일 CPU 설계 IP(지식재산권)의 90% 이상을 장악하고 있는 Arm의 르네 하스(Rene Haas) CEO의 이 발언은 단순한 기술적 낙관론이 아니었다. 

피지컬 AI의 확산, 그리고 이에 따른 노동 시장의 재편이 선택이 변수가 아닌 상수가 될 것임을 강력히 시사했기 때문이다.

그는 “우리는 이러한 새로운 현실과 함께 사는 법을 배워야 할 것”이라며 로봇이 인간과 같은 수준의 비정형화된 작업을 수행할 것으로 예측했다.

현재의 산업용 로봇은 하드웨어와 소프트웨어가 특정 작업에 고정된 단일 목적 기계에 가깝다. 그러나 고도화된 AI 모델이 탑재된 차세대 휴머노이드 로봇은 인간처럼 상황을 인지하고 학습하며 필요에 따라 즉각적으로 재프로그래밍이 가능한 범용 노동력으로 기능할 것이란 게 전문가들의 예측이다. 

예컨대 현재 웨이모(Waymo)의 자율주행 로보택시는 라이다(LiDAR)와 레이더 등 수많은 고가 센서에 의존하고 있지만, AI 모델의 추론 능력이 향상되면 하드웨어 의존도를 낮출 수 있다. 이런 변화는 로봇, 자율주행차에 탑재된 AI가 물리적 세계를 이해하고 복잡한 작업을 수행하는 피지컬 AI 시대를 앞당길 전망이다.

👉테슬라 vs 웨이모, 로보택시 미래 향한 두 개의 길

월드 랩스가 개발한 월드 모델 ‘마블’ (출처 : World Labs)

2026년은 분기점… 얀 르쿤과 페이페이 리가 보낸 시그널

르네 하스의 발언은 고립된 예측이 아니다. 2025년 11월 발표된 두 AI 거장의 행보는 이러한 흐름이 이론적 검증을 마치고 상용화 단계로 진입하고 있음을 알리는 신호탄이었다. 

메타(Meta)의 수석 AI 과학자 출신이자 튜링상 수상자인 얀 르쿤(Yann LeCun) 뉴욕대 교수는 11월 물리적 세계를 이해하는 ‘월드 모델(World Model)’ 개발을 위해 새로운 스타트업을 설립했다. 

르쿤은 “현재 AI 시스템은 변호사 시험을 통과할 수 있지만, 식기세척기를 채우는 것과 같은 5살짜리 아이의 능력조차 갖추지 못했다”며 피지컬 AI와 월드 모델의 중요성을 강조한 바 있다. 텍스트 기반 대규모 언어 모델(LLM)은 ‘막다른 골목(Dead end)’에 도달했다는 게 그의 생각이다. 

‘AI의 대모’로 불리는 페이페이 리(Fei-Fei Li) 스탠퍼드대 교수는 11월 공간 지능(Spatial Intelligence), 즉 물리 세계를 이해하고, 구현할 수 있는 월드 모델 ‘마블(Marble)’을 선보였다. 지난해 12월 자신이 설립한 스타트업 ‘월드 랩스(World Labs)’를 통해 월드 모델 개발 사실을 발표한 지 1년여 만의 결과물이었다. 

2022년 11월 챗GPT 등장으로 급부상한 LLM은 본질적으로 텍스트 데이터의 통계적 패턴을 학습해 다음에 올 단어를 예측하는 시스템이다. LLM에 대해 ‘확률적 앵무새(Stochastic Parrot)’라는 비판이 제기된 까닭이다. 

물리 법칙의 지배를 받는 현실에서는 언어를 초월한 지적 능력이 요구된다. 예컨대 공장에서 부품을 조립하는 로봇이라면 “나사를 조이라”는 언어 명령만 이해하는 것으로 끝나지 않고, 나사가 헛돌거나 부품이 미세하게 어긋났을 때 발생하는 물리적 피드백(햅틱, 시각적 변화)을 인지하고 즉각적으로 계획을 수정하는 능력을 갖춰야 한다. 이런 한계를 극복하는 게 월드 모델과 피지컬 AI의 핵심 과제인 것이다. 

이런 흐름을 볼 때 2026년은 AI 기술 및 산업의 분기점이 될 가능성이 높다. 컨설팅 업체 딜로이트 역시 ‘AI의 물리적 환경 적용(AI goes physical)’을 2026년의 핵심 기술 트렌드로 선정, AI와 로보틱스의 융합이 2026년 산업계의 최대 화두가 될 것이라고 예측했다.

👉‘구글 창업자’ 래리 페이지는 왜 AI 스타트업을 만들었을까?

모빌리티 VLA 기반 로봇 내비게이션 프로세스 (출처 : Google DeepMind)

피지컬 AI: 인지에서 행동으로의 도약… 두 가지 트리거

딜로이트는 피지컬 AI를 ‘기계가 물리적 세계를 자율적으로 인지(Perceive), 이해(Understand), 추론(Reason)하고 상호작용(Interact)할 수 있게 하는 AI 시스템’으로 정의했다. 

과거의 로봇이 엔지니어가 입력한 좌표값에 따라 정확하게 움직이는 기계장치였다면 피지컬 AI가 탑재된 로봇은 카메라와 센서를 통해 들어오는 시각 정보를 실시간으로 해석하고, 상황에 맞는 최적의 행동을 스스로 결정할 수 있다. 단순히 로봇의 기능을 개선하는 수준이 아니라 디지털 지능과 물리적 행동 사이의 간극을 메우는 혁명적 변화인 것이다. 

이런 변화를 촉진하는 첫 번째 기술적 트리거(Trigger, 방아쇠)는 VLA(Vision-Language-Action, 비전-언어-행동) 모델이다. VLA는 언어 처리 능력에 시각 정보 처리(Computer Vision)와 로봇 제어 능력을 통합한 모델로 인간의 언어와 시각 정보를 행동으로 직접 변환한다. “저기 있는 빨간 상자를 집어서 컨베이어 벨트에 올려놔”라는 자연어 명령을 로봇이 이해하고 수행하는 것이 가능해진다.

👉사람처럼 보고·듣고·이해… 구글 안내 로봇, 왜 혁신적인가   

얀 르쿤과 페이페이 리가 주목하는 월드 모델이 두 번째 기술적 트리거다. 월드 모델은 피지컬 AI의 두뇌에 해당한다. 현재의 LLM은 텍스트의 통계적 패턴만을 학습, “컵을 들고 있다가 놓으면 떨어진다”는 문장은 생성할 수 있어도 실제로 컵이 떨어질 때의 물리적 궤적이나 충격량은 이해하지 못하는 것이다. 

얀 르쿤의 핵심 이론은 AI가 비디오의 다음 프레임을 픽셀 단위로 예측하는 비효율적인 방식 대신 추상적인 특징 공간에서 미래의 상태를 예측하도록 설계하는 것이다. 이런 접근 방식으로 인간이 자연스럽게 습득한 현실 세계의 ‘상식(Common Sense)’을 로봇에 부여할 수 있다. 예를 들어 로봇 팔이 유리잔을 밀면 깨질 수 있다는 것을 직관적으로 예측할 수 있게 하는 식이다.

시각적 인식을 넘어 3차원 공간(물리적 공간)에서의 객체 간의 관계를 이해하고 상호작용하는 능력을 갖춘 공간 지능은 가상 공간에서 수억 번의 시뮬레이션을 통해 물리적 법칙과 작업 노하우를 습득할 수 있게 해줄 수 있다. 페이페이 리의 접근법은 로봇의 학습 비용을 획기적으로 낮추고, 범용 작업을 수행할 수 있는 로봇의 실현을 앞당기는 핵심 인프라가 된다.

VLA 모델 작동 방식 (출처 : Deloitte)

피지컬 AI, 어떤 변화 초래할까… 전략 어떻게?

피지컬 AI 로봇은 물리적 세계의 ‘에이전트(Agent, 대리인)’이 될 전망이다. 다만 현재 기업들의 준비는 부족하다는 게 딜로이트의 분석이다. 

딜로이트 조사에 따르면 조사에 참여한 조직의 38%가 에이전트 AI를 파일럿 테스트 중이지만, 실제 생산에 적용한 비율은 11%에 불과했다. 

이런 괴리의 주요 원인은 프로세스 재설계 부족에 있다. 가트너는 2027년까지 에이전트 프로젝트의 40%가 실패할 것으로 예측했는데, 그 이유는 기술적 결함이 아니다. 이미 망가진 프로세스를 자동화하려는 시도 때문이라는 게 가트너의 분석이다. 

인간에게 맞춰진 비효율적인 업무 절차를 그대로 둔 채 에이전트, 로봇만 도입해서는 성과를 낼 수 없다는 것. 업무 프로세스 자체를 AI 에이전트 중심으로 완전히 재설계해야 성공적인 결과를 기대할 수 있다.

이런 변화는 기업 인사팀(HR)에도 새로운 도전을 제기할 것으로 예측된다. 인간 직원뿐만 아니라 디지털 및 로봇 에이전트의 성과를 관리하고, 이들을 위한 ‘커리큘럼(학습 데이터)’을 개발해야 할 것이기 때문이다. 정보기술 최고 책임자(CIO)는 기술 관리자를 넘어 인간-로봇 협업 팀을 조율하고 비즈니스 성과를 창출하는 전략가가 돼야 한다.

피지컬 AI의 확산이 추론 수요 급증을 야기한다는 점도 염두에 둘 필요가 있다. AI 모델의 훈련 비용보다 로봇이 실시간으로 세상과 상호작용하며 발생하는 추론(Inference) 비용이 훨씬 더 중요해지는 것이다.

토큰(token, AI 모델이 훈련과 추론 과정 중 처리하는 데이터 단위)당 비용은 지난 2년 사이 280배 하락했지만, 피지컬 AI 기반 로봇이 24시간 가동될 경우 추론 비용 통제가 필요할 전망이다. 

하이브리드 아키텍처도 필수적이다. 로봇은 클라우드와의 통신 지연(Latency)을 허용하지 않는 긴박한 상황에서 작동해야 한다. 통신 지연이 사고의 원인이 될 수 있기 때문이다. 모든 데이터를 클라우드로 보내는 대신 로봇 내부(온디바이스, On-device)나 공장 내 엣지 서버(Edge)에서 처리하는 ‘3단계 하이브리드 아키텍처(Cloud-Premise-Edge)’가 표준이 될 가능성이 크다.

로보틱스와 피지컬 AI 분야 6대 폼팩터 (출처 : Deloitte)

더밀크의 시각: C-레벨 액션플랜 수립 가이드

2026년은 피지컬 AI가 실험실을 벗어나 우리의 일터와 일상으로 들어오는 거대한 전환점이 될 것이다. 이 거대한 변화를 수동적으로 받아들이는 것을 넘어 주도적으로 설계하고 활용해야 한다.

BMW와 테슬라(Tesla)는 이미 공장 내 물류와 조립 공정에 자율주행 기술과 휴머노이드 로봇을 도입하고 있으며 현대자동차그룹 역시 보스턴 다이내믹스(Boston Dynamics)를 통해 제조업의 로봇화 전략을 펼 것으로 예상된다. 

삼성전자와 같은 반도체 기업들은 엔비디아와의 협력을 통해 AI 팩토리를 구축하고 있다. 공정 데이터를 실시간으로 분석해 수율을 극대화하고, 미세한 오차를 스스로 보정하는 자율 제어 시스템이 도입되고 있다. 

정부 차원에서는 휴머노이드 전용 규제 샌드박스 확산으로 선도적으로 실증을 진행, 인간과 섞여 일하는 협동 로봇 및 휴머노이드 로봇을 위한 별도의 안전 기준(예: 충돌 시 즉시 정지, 힘 제한 등)을 정립할 필요가 있다. 

페이페이 리의 월드 랩스가 보여주었듯 피지컬 AI의 성능은 양질의 3D 공간 데이터와 물성 데이터에 달려 있다. 개별 기업이 구축하기 어려운 한국형 표준 공정 데이터, 3D 객체 데이터 등을 국가 차원에서 수집해 AI 학습용으로 개방한다면 ‘피지컬 데이터 댐’으로 활용될 수 있다. 

피지컬 AI 도입으로 일자리를 위협받는 근로자들을 보호하는 것도 국가의 중요한 역할이다. 로봇 오퍼레이터나 유지보수 전문가로 전직할 수 있는 심층 교육 프로그램을 제공하거나 교육 기간 동안 경제적 보조금을 지원하는 ‘AX(AI Transformation) 직무 전환 바우처’ 등을 고려해 볼 수 있을 것이다. 

기업 전략 담당자, C 레벨, 의사결정권자들은 ‘프로세스 퍼스트(Process First)’ 전략을 수립하는 게 시급하다. 이를 통해 AI 에이전트나 로봇을 도입하기 전 작업 흐름 자체를 가장 효율적인 형태로 완전히 재설계해야 한다.

하이브리드 엣지 전략 수립도 비용 관리 차원에서 매우 중요하다. 클라우드 비용 폭탄을 피하고 보안을 강화하기 위해 공장 내 고성능 엣지 컴퓨팅 인프라를 구축하는 과감한 움직임이 필요해질 수 있다. 데이터의 80%는 현장에서 처리하고, 핵심 인사이트만 클라우드로 보내는 시스템을 구축한다면 비용 효율성 및 안전성을 높일 수 있을 것이다. 

마지막으로 잊지 말아야 할 점은 피지컬 AI는 특정 기업 홀로 진행할 수 있는 영역이 아니라는 점이다. 로봇 하드웨어, AI 모델, 통신, 보안 등 각 분야의 최고 기업들과 파트너십을 맺고, 개방형 생태계 참여해야 한다. 외부의 혁신을 내부로 적극적으로 끌어들이고 계속해서 변화해야 경쟁력을 유지할 수 있다.

이 기사와 관련있는 기사 현재 기사와 관련된 기사들 입니다.