2026년 2월 18일

로봇 하위 제어에 RL은 답인가? — Figure AI 사례로 본 현실

Figure AI System 0의 1kHz 신경망 관절 제어를 분석하고, 범용 제어기 회사가 하위 제어에서 경쟁력을 가지려면 무엇이 필요한지 정리한다.

Figure AI가 Helix 02 발표(2026년 1월)에서 System 0이라는 신경망 기반 하위 제어기를 공개했다. 10M 파라미터, 1kHz 추론, 관절별 토크 명령 직접 출력. 109,504줄의 수동 작성 C++을 대체했다고 한다.

이걸 보고 나면 자연스러운 질문이 나온다. “하위 제어에 RL을 쓰는 게 맞는 건가?”

Figure AI System 0은 무엇인가

항목	내용
네트워크 크기	10M 파라미터
추론 주파수	1kHz (1ms마다 한 번)
입력	전신 관절 상태 + 베이스 모션
출력	관절별 액추에이터 토크 명령
학습 방식	1,000시간+ 인간 모션 데이터 + sim-to-real RL
학습 환경	200,000+ 병렬 시뮬레이션 + domain randomization

계층 구조에서의 위치:

[System 2] 목표 추론 (언어/비전)
    ↓
[System 1] 200Hz — 인식 → 전신 관절 목표 생성
    ↓
[System 0] 1kHz — 관절 목표 → 액추에이터 토크 명령  ← 여기
    ↓
[액추에이터] 토크 실행

System 0은 관절 목표를 받아서 토크 명령을 출력한다. 전통적으로 PID + feedforward가 담당하던 영역이고, 제어 공학에서 말하는 하위 제어(low-level control) 그 자체다.

솔직히 말하면, 없다.

Figure AI가 BotQ 공장을 발표하고 연 12,000대 생산 계획을 밝혔지만, 실제로 1kHz neural net 제어가 대량 출하된 로봇에서 안정적으로 돌고 있다는 독립적 검증은 확인되지 않았다. Figure AI 자체 블로그 발표가 유일한 소스다.

정직한 표현은 이렇다: “Figure AI는 1kHz neural net 관절 제어를 시연했고 프로덕션 적용을 목표로 하고 있다.” 프로덕션에서 돌리고 있다는 건 Figure AI의 주장이지, 검증된 사실이 아니다.

휴머노이드 로봇의 하위 제어 C++ 코드 10만 줄이면, 일반적으로 이런 것들이다:

40개 관절 x 수십 개 동작 모드 x 예외 케이스 x 안전 처리 = 조합 폭발. 전통적 제어는 모든 경우를 명시적으로 코딩해야 하기 때문에, 로봇이 복잡해질수록 코드가 조합적으로 늘어난다.

신경망이 이걸 대체할 수 있는 이유는, 10M 파라미터 네트워크가 이 모든 조합을 암묵적으로 일반화하기 때문이다. 명시적 분기 대신 연속 함수 근사로 처리한다.

Figure AI에게는 맞았다. 대부분의 경우에는 아니다.

Figure AI가 RL로 하위 제어를 할 수 있었던 조건:

핵심은 이거다: RL 정책은 특정 로봇에 종속된다. 200,000개 병렬 시뮬레이션을 돌려서 그 로봇의 동역학을 학습한 것이다. 새 로봇이 오면 처음부터 다시 해야 한다.

범용 로봇 제어기를 만드는 회사라면 이야기가 완전히 달라진다:

범용 제어기의 핵심 가치는 새 로봇에 빠르게 적용되는 것인데, RL은 그 반대다.

기술보다 먼저 답해야 할 질문이 있다. “누가 왜 기존 컨트롤러를 버리고 새 제어기를 쓰나?”

Fanuc, KUKA, ABB 로봇은 자체 컨트롤러가 충분히 좋다. 파고들 수 있는 틈은:

이 시장에서 경쟁력이 되는 기술:

새 로봇 연결 → 짧은 테스트 궤적 실행 → 동역학 파라미터 자동 추정. 이게 분 단위로 끝나야 한다. 현재 산업 현장에서 새 로봇 셋업은 엔지니어가 며칠씩 수동 튜닝하는 게 현실이다.

시스템 식별 결과로 PID + feedforward 게인을 자동 계산. 고객이 제어 이론을 몰라도 쓸 수 있어야 한다. **“연결하면 알아서 된다”**가 범용 제어기의 핵심 가치다.

물리 모델이 잡지 못하는 마찰, 백래시, 케이블 드래그를 소량의 실제 데이터로 학습해서 feedforward에 추가한다. RL이 아니라 지도 학습이다. 수십 분의 데이터면 충분해야 한다.

여기서 핵심: 학습 프레임워크는 범용, 학습된 모델은 로봇별. 새 로봇마다 시뮬레이션 환경을 만드는 게 아니라, 실제 로봇에서 짧은 데이터 수집 → 자동 학습으로 끝나는 파이프라인.

페이로드 변경, 마모, 온도 변화에 실시간으로 파라미터를 업데이트한다. 로봇을 멈추고 재튜닝할 필요 없이 동작 중에 적응하는 것.

“하위 제어에 RL이 의미 있냐”는 질문에 대한 답은 조건부다.

“E2E RL은 안 된다”도 틀리고, “E2E RL이 답이다”도 틀리다. RL이 작동하는 조건과 작동하지 않는 조건을 구분하는 것이 정확한 결론이다.