· 6분 읽기

범용 로봇 파운데이션 컨트롤러는 휴머노이드만의 이야기인가 — 모바일 매니퓰레이터 관점에서

PID/ADRC 같은 고전 제어부터 VLA·파운데이션 컨트롤러까지, 제어 레이어의 흐름을 정리하고 모바일 매니퓰레이터에서 이 구조가 왜 더 잘 맞는지 따져본다.


요즘 로봇 제어 관련 글을 보면 휴머노이드 위주의 서사가 압도적이다. Figure, 1X, Tesla Optimus, Unitree. 그런데 우리가 실제로 만들고 있는 건 **모바일 매니퓰레이터(Mobile Manipulator, MoMa)**다. 시설 원예 같은 환경에서 베이스가 움직이면서 팔이 작업하는 형태.

“파운데이션 컨트롤러는 결국 휴머노이드 이야기 아닌가”라는 의심이 들어서 한 번 정리했다. 결론부터 말하면 그 반대다.


제어 레이어의 흐름 — PID부터 파운데이션 컨트롤러까지

먼저 큰 그림. 같은 “피드백 제어” 카테고리 안에서도 레이어가 다르다.

레이어대표 기법모델 의존도특징
고전 제어PID매우 낮음오차 기반, 범용적, 튜닝 의존
외란 보상ADRC낮음외란을 추정해서 상쇄
강인 제어SMC, H∞중간불확실성에 강함, 채터링 위험
최적 제어LQR, MPC높음제약 조건 처리, 계산량 큼
학습 기반RL, VLA, 파운데이션 컨트롤러데이터 의존일반화, 의미 기반 제어

PID와 ADRC는 같은 “모델을 거의 몰라도 쓰는 제어기” 그룹이다. 그 위로 올라갈수록 시스템 모델이나 데이터가 더 필요해지는 대신, 더 복잡한 작업을 처리할 수 있다.

학계의 최근 흐름은 이걸 따로 쓰는 게 아니라 계층으로 쌓는 것이다. 고속 루프는 PID/ADRC, 그 위에 MPC, 더 위에 VLA(Vision-Language-Action) 모델. 각 레이어가 서로 다른 시간 척도에서 동작한다.


”파운데이션 컨트롤러”가 가리키는 것

용어가 혼란스러워서 한 번 정리한다. 요즘 “범용 로봇 파운데이션 모델”이라고 부르는 건 대체로 두 가지를 합친 것이다.

  1. VLA 모델 — 언어/시각 입력을 받아 행동 토큰을 출력하는 거대 신경망 (Octo, OpenVLA, NVIDIA GR00T 계열, Google Gemini Robotics 등)
  2. 모포로지 어댑터(Morphology Adapter) — URDF 같은 하드웨어 기술서를 받아서, 동일한 지능 모델이 다른 로봇에서 작동하도록 매핑해주는 레이어

핵심은 두 번째다. 로봇마다 따로 학습하는 게 아니라, 하드웨어 사양을 입력으로 받아서 동일한 정책을 다른 형태에 매핑한다는 발상.

이게 가능한 이유:

  • End-effector 기준 좌표 — 관절 절대 각도가 아니라 말단부의 상대 이동을 표준 단위로 쓴다. 6축이든 7축이든 동일한 명령 체계.
  • 델타 액션 — 절대 자세 명령이 아니라 “다음 시간에 얼마나 움직일지”를 출력. 운동학이 달라도 같은 형식으로 표현 가능.
  • 파라미터 토큰화 — 링크 길이, 토크 한계 같은 수치를 입력 임베딩에 섞어 넣으면, 모델이 “이 하드웨어라면 이 정도가 한계겠구나”를 추론한다.

이론적으로는 깔끔하지만, 실제로 zero-shot이 잘 되느냐는 별개의 문제다. 벤치마크 결과들을 보면 같은 카테고리(예: 6-DoF 매니퓰레이터) 안에서는 그럭저럭 일반화되는데, 카테고리를 넘어가면(매니퓰레이터 → 모바일 매니퓰레이터) 성능이 크게 떨어진다.


휴머노이드 한정인가? — 오히려 반대다

휴머노이드가 미디어를 점령하다 보니 생긴 착시인데, 학계 논문들의 학습 데이터를 뜯어보면 매니퓰레이터와 모바일 베이스 데이터가 훨씬 많다. 단순히 데이터를 모으기 쉬워서 그렇다. 휴머노이드는 비싸고, 매니퓰레이터는 흔하다.

휴머노이드가 어려운 이유는 본질적으로 균형(balancing) 때문이다. 다리가 두 개인 구조에서 넘어지지 않는 것 자체가 비선형·고차원 문제고, Figure AI가 1kHz 신경망을 깐 이유도 여기에 있다.

모바일 매니퓰레이터는 다르다. 베이스가 안정적인 플랫폼(바퀴, 차동/메카넘) 위에 있어서, 균형 문제 없이 작업 자체에 집중할 수 있다. 이게 파운데이션 모델 입장에서 훨씬 다루기 쉬운 형태다.

구분휴머노이드모바일 매니퓰레이터
균형 제어필수, 고난이도거의 불필요
하위 제어 주파수1kHz급 신경망 필요 가능성수백 Hz PID/ADRC면 충분
학습 데이터 풍부도적음, 비쌈많음, 수집 쉬움
상업적 수요 시점향후 5~10년지금
작업 복잡도매우 다양도메인별로 명확

휴머노이드가 더 어려운 거지, 더 우월한 게 아니다. 상업적 수요가 먼저 터지는 곳은 모바일 매니퓰레이터다. 농업, 물류, 청소, 식음료 서빙. 휴머노이드는 아직 시연 단계가 많고, 모바일 매니퓰레이터는 이미 배치되고 있다.


모바일 매니퓰레이터에서 더 중요한 것: Whole-Body Control

전통적으로는 베이스 제어와 팔 제어가 분리되어 있었다. 베이스가 멈춘 다음 팔이 움직이는 식. 이건 작업 시간을 늘리고, 좁은 공간에서는 아예 불가능하다.

최근 흐름은 **베이스의 자유도와 팔의 자유도를 하나의 고차원 벡터로 묶어서 처리하는 것(Whole-Body Control)**이다. 모바일 베이스 3-DoF + 팔 6-DoF = 9-DoF 시스템으로 풀어버린다.

여기서 파운데이션 컨트롤러가 진짜 가치를 낸다:

  • 베이스가 미세하게 흔들리면서 동시에 팔이 정밀 작업
  • 작업 공간이 베이스 가동 범위까지 확장됨 (manipulability 증가)
  • 사람이 보기에 “유동적인” 동작이 가능해짐

PID나 분리된 MPC로도 못하는 건 아닌데, 매니퓰러빌리티 최적화 + 충돌 회피 + 동역학 결합을 동시에 처리하려면 손으로 짜는 비용이 폭발한다. 학습 기반이 유리한 영역.


그래도 남는 문제: 하위 제어는 여전히 클래식하다

여기서 중요한 구분. VLA/파운데이션 컨트롤러가 하는 일은 “작업 계획 + 궤적 생성”이지, “토크 명령 출력”이 아니다.

레이어역할주파수적합한 기법
상위”무엇을 할 것인가”1~10HzVLA, 파운데이션 모델
중간”어떻게 움직일 것인가”100~500HzMPC, Whole-Body Controller
하위”토크/전류 얼마”1~10kHzPID, ADRC, feedforward

Figure System 0이 1kHz 신경망으로 하위 제어까지 신경망으로 밀어버린 건 휴머노이드 균형이라는 특수 사정 때문이다. 모바일 매니퓰레이터에서는 하위 제어 레이어를 굳이 신경망으로 갈아엎을 이유가 없다. 그 영역은 PID + feedforward + (필요시) ADRC가 여전히 가장 빠르고, 안전하고, 디버깅 가능하다.

이전 글(로봇 하위 제어에 RL은 답인가)에서 정리한 결론과 같다. RL/신경망이 답인 영역과 클래식이 답인 영역은 다르다.


정리 — 그래서 어떤 구조가 맞는가

모바일 매니퓰레이터를 위한 제어 스택은 이런 모양이 되어야 한다고 본다.

[VLA / 파운데이션 모델]   "오이를 수확해"
        ↓ 1~10Hz, 작업 의미 → 궤적 목표
[Whole-Body MPC / 학습 정책]   베이스+팔 통합 궤적
        ↓ 100~500Hz, 운동학·동역학 결합 처리
[관절 PID + ADRC + feedforward]   토크 명령
        ↓ 1~10kHz
[모터/액추에이터]

각 레이어를 독립적으로 진화시킬 수 있어야 한다. 상위는 VLA 발전 속도에 맞춰 교체 가능하게, 중간은 로봇 구조에 맞춰 자동 생성되게, 하위는 안정성·결정론을 보장하게.

“파운데이션 컨트롤러”라는 단어가 모든 레이어를 신경망으로 갈아엎는다는 의미로 쓰이면 그건 과장이다. 레이어를 합치는 게 아니라, 각 레이어가 더 잘 일반화되도록 만드는 것이 실제 흐름이다.

휴머노이드만의 이야기가 아니라, 오히려 모바일 매니퓰레이터에서 이 구조가 더 깔끔하게 작동한다. 균형이라는 추가 부담이 없고, 데이터가 더 많고, 시장이 더 빠르게 열리고 있기 때문이다.

← All posts