2026년 2월 18일

하위제어에 RL은 정말 의미 없는가 — Figure AI가 던진 반례

로봇 하위제어에서 강화학습과 학습 동역학 모델의 기술적 비교, 그리고 WIM이 내린 선택의 근거

프롤로그: 하나의 질문에서 시작된 논쟁

WIM의 전략 재설계 과정에서 가장 많은 시간을 쏟은 주제가 있다. 바로 **“하위제어에 강화학습(RL)을 쓰는 것이 의미가 있는가”**라는 질문이다.

WIM 내부에서도 이 문제는 갈등을 만들었다. 팀원 동욱과 영훈은 ADRC(능동외란억제제어)를 공부하고 있었고, 대표인 나는 강화학습 기반 접근이 장기적으로 맞다고 판단했다. 김화랑은 현실적 우려를 제기했다.

“되는 거 하나 확실히 할 텐가, 대박 노리고 도박해볼 텐가” — 김화랑 “돈은 제가 댈 테니 도박 한번 해보시죠. 진짜 개쩌는 거 만들고 싶을 거 아닙니까” — 전우진

이 논쟁을 정리하기 위해, 하위제어에서 RL이 왜 의미가 없다고 판단했는지를 본질적인 수준에서 파헤쳐봤다.

1장: 하위제어 RL에 대한 4가지 의문

의문 1: 이미 충분히 잘 풀린 문제 아닌가?

모터 물리학은 비교적 잘 모델링된 영역이다. 전류에서 토크로의 관계는 Kt 상수 기반으로 거의 선형이고, 속도에서 역기전력도 Ke 상수 기반으로 선형이다. 마찰과 관성 역시 기존 모델로 충분히 보상이 가능하다.

PID + Feedforward만으로도 이 레벨에서는 이미 99% 수준의 성능이 나온다. RL이 개입해서 개선할 수 있는 여지는 많아야 1~5% 수준인데, 그에 비해 복잡성, 불확실성, 검증 부담은 크게 증가한다. ROI 관점에서 타당한지 의문이었다.

의문 2: 속도(주기) 제약이 치명적이지 않은가?

하위 제어 루프는 전류 루프의 경우 10kHz 이상, 토크/속도 루프도 1kHz 이상으로 동작한다. 12kHz라면 83μs 안에 모든 연산이 끝나야 한다.

이 시간 안에 신경망 추론이 결정론적으로 수행되어야 하는데, 현실적으로는 매우 작은 네트워크만 가능하다. 그렇다면 PID 대비 구조적 이점이 거의 사라질 가능성이 높다.

의문 3: 안전 인증을 통과할 수 있는가?

산업용 로봇의 하위 제어는 ISO 13849 등 안전 인증 대상이다. RL 기반 컨트롤러는 본질적으로 블랙박스다.

고객사 안전 담당자에게 “이 모터 제어는 신경망이 결정합니다”라고 설명하는 순간, 채택이 거부될 가능성이 높다.

의문 4: 실패 모드의 리스크가 지나치게 크지 않은가?

상위제어 RL이 실패하면 — 로봇이 엉뚱한 곳을 집는다. 물건 손상 정도.

하위제어 RL이 실패하면 — 모터가 풀토크로 폭주할 수 있다. 장비 파손, 인명 사고.

리스크 대비 보상 비율이 최악인 영역이다.

2장: 4가지 의문에 대한 검증

이 4가지 논점을 하나씩 검증해봤다. 결론부터 말하면, 방향은 모두 맞지만 몇 가지 중요한 뉘앙스가 있었다.

”99% 풀린 문제” — 조건부로 맞다

단일 관절 수준에서는 정확하다. 전류→토크가 선형이고 PID+FF로 충분하다.

하지만 다관절 로봇 전체로 올라가면 이야기가 달라진다:

6축 매니퓰레이터의 동역학은 비선형 커플링이 있다 (한 관절이 움직이면 다른 관절에 영향)
감속기 마찰은 방향, 온도, 속도에 따라 비선형적으로 변한다
케이블 드래그, 조립 편차는 해석 모델에 넣기 어렵다

“PID로 99%“라는 건 단순 궤적 추종 기준이다. 힘 제어, 접촉 작업, 미지 페이로드 적응 같은 시나리오에서는 PID+FF의 한계가 뚜렷하다.

시나리오	PID+FF로 충분?
단순 궤적 추종 (자유 공간)	충분 (99%+)
정밀 힘 제어 (접촉 작업)	부족
미지 페이로드 적응	부족
고속 다관절 커플링	부족
저속 정밀 위치 결정 (Stribeck 영역)	부족

다만 이건 RL을 쓸 이유가 아니라 학습 동역학 모델을 쓸 이유다. RL이 아니라 supervised learning으로 동역학을 배워서 feedforward 보상에 쓰는 게 ROI가 훨씬 좋다.

속도 제약 — 맞지만, 작은 네트워크도 가치 있다

83μs 안에 추론해야 한다는 건 맞다. 하지만 이게 “RL이 안 되는 이유”인 동시에, 이걸 해내는 것 자체가 moat이 될 수 있다.

수십~수백 파라미터의 작은 MLP라도 비선형 마찰/커플링 보상에서 PID의 선형 게인보다 나은 부분이 있다. 핵심은 그 네트워크가 RL로 학습되느냐, supervised로 학습되느냐의 차이이고, 여기서 RL의 이점은 거의 없다.

안전 인증 — 가장 강한 논점

이건 반박하기 어렵다. 현재 산업 현실에서 가장 결정적인 이유다.

업계가 이 문제를 우회하는 방식이 있긴 하다:

[안전 레이어 (PID + 토크 리밋 + 속도 리밋)]  ← 인증 대상, 전통 제어
         ↑ 토크 명령 제한/감시
[성능 레이어 (Neural Net)]                   ← 인증 비대상, 성능 향상

Neural net이 토크를 제안하되, 안전 레이어가 항상 상위에서 감시하고 제한하는 구조다. 이 구조에서도 RL보다 학습 동역학 모델이 맞는 이유는 — 모델이 “이 상태에서 예상 토크는 X”를 예측하는 건 검증 가능하지만, RL이 “이 상태에서 내가 내리는 최적 행동은 Y”를 주장하는 건 검증 불가능하기 때문이다.

실패 모드 — 정밀하게 나눠야 한다

“하위제어 RL 실패 = 풀토크 폭주”는 하드웨어 안전장치가 없는 경우에 맞다. 현실에서는 전류 리밋, 토크 리밋, 속도 리밋, STO(Safe Torque Off) 같은 안전장치가 있기 때문에, neural net이 미쳐도 물리적으로 풀토크 폭주까지 가기는 어렵다.

하지만 안전장치 범위 안에서도 RL의 예측 불가능한 행동은 문제다. 토크 리밋 안에서 진동하거나, 갑자기 방향을 바꾸거나, 특정 상태에서 학습 안 된 행동을 하는 건 안전장치로 막을 수 없다.

3장: 그런데 Figure AI가 정확히 그걸 하고 있다

4가지 논점 모두 “하위제어에 RL은 의미 없다”를 가리키는 것 같았다. 그런데 하나의 반례가 나타났다.

Figure AI의 System 0

2026년 1월, Figure AI가 Helix 02를 발표했다. 그 안의 System 0이 정확히 “하위제어 RL”에 해당한다.

항목	내용
네트워크 크기	10M 파라미터
추론 주파수	1 kHz (= 1ms마다 한 번)
입력	전신 관절 상태 + 베이스 모션
출력	관절별 액추에이터 토크 명령
학습 방식	1,000시간+ 인간 모션 데이터 + sim-to-real RL
학습 환경	200,000+ 병렬 시뮬레이션 + domain randomization
대체한 것	109,504줄의 수동 작성 C++ 코드

System 0은 보조 모델이 아니다. 관절별 토크 명령을 직접 출력하는 제어기 자체다. 기존의 수작업 C++ 제어 코드를 완전히 대체했다.

계층 구조는 이렇다:

[System 2] 목표 추론 (언어/비전)
    ↓
[System 1] 200Hz — 인식 → 전신 관절 목표 생성
    ↓
[System 0] 1kHz — 관절 목표 → 액추에이터 토크 명령  ← RL로 학습
    ↓
[액추에이터] 토크 실행

“하위제어 RL은 의미 없다”가 틀렸는가?

결론부터 말하면: “하위제어에 RL이 본질적으로 의미 없다”는 틀렸다. Figure AI가 반증했다.

하지만 Figure AI가 이걸 성립시킨 조건이 매우 특수하다:

휴머노이드 보행 — PID+FF로 99% 안 나오는 문제. 비선형 접촉 역학, 전신 밸런스, 수십 개 관절의 협조 제어가 필요한 영역
자사 전용 로봇 — 안전 인증을 자체적으로 관리
$2.6B+ 자본 — 200,000+ 병렬 시뮬레이션 환경을 돌릴 수 있는 컴퓨팅 자원
단일 폼팩터 — 같은 로봇을 수천 대 만드는 구조

4장: 학습 동역학 모델이란 무엇인가

그렇다면 WIM이 RL 대신 선택한 “학습 동역학 모델”이란 뭔가?

기존 방식: 해석적 동역학 모델

로봇을 제어하려면 “이 관절을 이만큼 움직이려면 토크가 얼마나 필요한가”를 알아야 한다. 기존에는 라그랑주 역학 같은 수학 공식으로 이걸 계산한다.

입력: 관절 위치, 속도
   ↓ (수학 공식)
출력: 필요한 토크

문제는 수학 공식이 현실에서 안 맞는 것들이 많다는 것이다. 케이블 드래그, 온도에 따른 마찰 변화, 감속기의 비선형 마찰, 조립 편차, 페이로드 변화. 이런 것들은 공식에 넣기 어렵거나 불가능하다.

학습 방식: Neural Net으로 동역학을 배운다

수학 공식 대신 실제 로봇에서 데이터를 모아서 neural net이 동역학을 직접 학습한다.

[실제 로봇을 움직이면서 데이터 수집]
  관절 위치, 속도, 실제 토크 → 수만~수백만 샘플
         ↓ 학습
[Neural Net 동역학 모델]
  입력: 관절 위치, 속도
  출력: 필요한 토크 예측

이 모델은 수학 공식이 잡지 못하는 현실의 모든 효과를 데이터에서 자동으로 학습한다.

RL과의 핵심 차이

	하위제어 RL	학습 동역학 모델
neural net이 하는 일	토크를 직접 결정	동역학을 예측
제어기	neural net 자체가 제어기	기존 PID/제어기가 그대로 있음, 모델은 보조
비유	AI가 운전대를 잡음	AI가 도로 상태를 알려주고, 운전은 사람이 함
안전성	블랙박스, 검증 불가	모델 출력을 기존 제어기가 활용, 검증 가능
실패 시	제어기 자체가 오작동	모델이 틀려도 안전 레이어로 제한 가능

5장: 비교 연구 — 한 발 더 깊이

이 주제를 더 깊이 파고들기 위해, 종단간 강화학습(E2E RL)과 학습 동역학 기반 선행보상(Learned Dynamics-based Feedforward) 방식을 체계적으로 비교하는 연구를 정리했다.

결정론적 동작의 문제

하위 제어에서 신경망이 채택되려면 모든 추론 주기가 정해진 시간 내에 완료되는 결정론적(Deterministic) 동작이 보장되어야 한다.

범용 OS나 표준적인 GPU 환경에서는 캐시 미스, 인터럽트 처리, 스케줄링 지연으로 인해 실행 시간이 흔들린다. 이런 시간 지터는 위상 지연을 유발하고, 제어기의 대역폭을 제한하며, 시스템을 불안정하게 만든다.

10kHz 수준의 제어 루프를 달성하려면 추론 시간이 100μs 이내로 억제되어야 하며, FPGA나 전용 AI 가속기(NPU)의 활용이 필수적이다. 이 엔지니어링 자체가 moat이 되는 지점이다. 논문에서 “된다”와 실제 RT 하드웨어에서 “된다”는 전혀 다르다.

안정성 보장의 차이

제어 시스템의 안정성 증명은 리아푸노프 안정성 이론에 기초한다.

E2E RL의 안정성: 신경망의 가중치 행렬이 복잡하게 얽혀 있어 전역적인 리아푸노프 안정성을 증명하는 것은 현재의 수학적 도구로는 불가능에 가깝다.

학습 동역학 모델의 안정성: 신경망이 출력하는 보상 토크의 상한선을 설정하거나, 오차 범위를 명시적으로 정의하여 강인 제어 기법과 결합할 수 있다. 신경망이 예기치 못한 값을 출력하더라도 시스템 전체가 발산하지 않도록 물리적/수학적 안전장치를 설계하는 것이 가능하다.

산업계의 실제 선택

Figure AI와 Tesla Optimus 모두, 초기에는 모든 제어를 학습으로 해결하려 했으나 점차 하이브리드/계층적 구조로 선회하고 있다.

Figure AI의 System 0은 RL로 학습됐지만, 인간 모션 데이터라는 강력한 가이드(Prior)를 통해 탐색 공간을 제한함으로써 안정성을 확보했다. 순수 E2E RL은 보상 함수 설계 과정에서 비정상적인 동작을 학습할 위험이 크기 때문이다.

6장: 비교 연구에 대한 팩트체크

이 비교 연구 자체도 완벽하지 않았다. 몇 가지 짚어야 할 점이 있었다.

Figure AI를 잘못 해석하고 있었다

비교 연구에서 System 0을 “동역학적 우선순위(Prior)를 제공”하는 것으로 설명했는데, 이건 오도적이다. Figure AI 공식 발표에 따르면 System 0은 관절별 토크 명령을 직접 출력하는 제어기 자체다. 109,504줄의 C++을 대체했다. 보조적 Prior가 아니다.

“E2E RL은 ROI가 낮다”는 결론과, Figure AI가 실제로 E2E RL로 하위 제어기를 대체한 현실 사이에 긴장이 있다. 이걸 정면으로 다루지 않으면 설득력이 떨어진다.

”99%” 모순

“PID로 99%“를 전제하면서 동시에 학습 동역학의 필요성을 주장하는 건 모순이다. 만약 99%가 맞다면 학습 동역학의 개선폭도 제한적이고, 비선형 효과가 심각하다면 99%가 과대다. 어떤 시나리오에서 99%이고, 어떤 시나리오에서 아닌지를 구분해야 한다.

E2E RL의 Chattering 주장은 근거가 약하다

“RL 제어기는 목표값 부근에서 떨림이 발생하기 쉽다”는 주장은 RL 고유의 문제가 아니다. 연속 행동 공간(SAC, TD3 등)으로 학습하면 출력이 부드럽다. 오히려 PID의 미분 항이 노이즈에 의해 chattering을 일으키는 것이 더 흔하다.

빠진 가장 중요한 질문

“학습 동역학 모델은 새로운 로봇에 얼마나 빨리 적용 가능한가?”

이 연구가 학습 동역학의 우월성을 주장하면서, 그 가장 큰 실용적 약점을 다루지 않았다. 새 로봇마다 실제 데이터를 수집해야 하고, 로봇의 동역학이 변하면 재수집/재학습이 필요하다. E2E RL의 sim-to-real은 이 문제를 시뮬레이션으로 우회하려는 시도이고, Figure AI가 200,000+ 병렬 환경으로 이를 실현한 것이다.

두 방식은 배타적이지 않다

E2E RL vs 학습 동역학을 양자택일로 프레이밍할 필요가 없다. 계층적 결합이 가능하다:

[E2E RL로 전신 밸런스/보행 학습]    ← System 0 (Figure AI)
        ↓ 관절 목표
[학습 동역학 모델로 토크 보상]       ← 관절별 비선형 보상
        ↓ 보정된 토크 명령
[액추에이터]

E2E RL은 PID로 안 풀리는 문제(전신 보행 등)에, 학습 동역학은 관절별 비선형 보상에 각각 쓰이는 것이 가장 현실적이다.

7장: 최종 판단 — WIM의 선택은 맞는가

”하위제어 RL은 의미 없다”는 버려야 한다

Figure AI가 반증했다. 하위제어에 RL이 본질적으로 무의미한 게 아니다.

하지만 Figure AI가 이걸 성립시킨 조건과, WIM의 조건은 근본적으로 다르다:

	Figure AI	WIM
문제 영역	휴머노이드 보행 (PID로 안 풀림)	매니퓰레이터 관절 제어 (PID로 상당 부분 커버)
로봇	자사 전용, 단일 폼팩터	범용 제어기, 다양한 로봇
안전 인증	자체 관리	ISO 13849 필수
자본	$2.6B+, 수백 명	6-15명, 6-12개월 런웨이
sim-to-real	200,000+ 병렬 환경	자원 부족

WIM에게 학습 동역학이 맞는 진짜 이유

RL vs 학습 동역학의 기술적 우열이 아니라, WIM의 비즈니스 모델과의 정합성이 결정적이다.

	E2E RL	학습 동역학
새 로봇 적용	전체 재학습 필요	데이터 수집 → 모델만 교체
고객이 이해 가능?	”신경망이 제어합니다” → 거부감	”마찰/중력 보상이 더 정밀합니다” → 수용 가능
안전 레이어 분리	어려움	가능
Auto-ID/Auto-Tune과 연결	구조적으로 분리됨	직결

마지막 줄이 핵심이다. WIM의 4가지 기술 스택은:

[4. Auto-ID & Auto-Tune]
 └─ 새 로봇에 연결하면 자동으로 ↓
[1. Learned Dynamics Model]
 └─ 이 로봇의 정확한 동역학을 학습 → ↓
[2. Sensorless Force Estimation]
 └─ 동역학 모델로 외력을 실시간 추정
[3. RT Neural Inference]
 └─ 위의 모든 것을 12kHz 제어 루프 안에서 실행

이 4가지가 서로 쌓이는 구조로 설계되어 있다. E2E RL을 선택하면 이 스택 전체를 다시 설계해야 한다. 학습 동역학 모델은 이 구조의 기초이기 때문에, 나머지 3개와 자연스럽게 연결된다.

정확한 프레이밍

“하위제어 RL은 의미 없다” (X)

“WIM의 조건(범용 산업용 제어기, 소규모 팀, 다품종 로봇)에서 학습 동역학이 RL보다 ROI가 높다” (O)

보고서나 피치에서 “하위제어 RL은 의미 없다”고 단정하면, Figure AI를 아는 사람 앞에서 신뢰를 잃는다. “RL이 되는 조건과 안 되는 조건을 구분하고, WIM은 후자에 해당한다”가 정확한 포지셔닝이다.

에필로그: 남은 것

기술 방향은 정해졌다. 하지만 정직하게 인정해야 할 것들이 있다.

첫째, moat은 아직 없다. Indy7 하나에 대한 모델은 moat이 아니다. 같은 Indy7을 가진 다른 팀도 똑같이 할 수 있다. N종의 로봇에서 학습한 데이터/모델이 축적되어 N+1번째 로봇에 빠르게 전이할 수 있는 구조가 되어야 진짜 moat이다.

둘째, 4가지 기술 모두 아직 만들어지지 않았다. “아직 뉴럴넷 제어를 만들지 않았기 때문에 장담 못해.” 전략 문서도 “이것은 베팅이다”로 끝났다.

셋째, 이 모든 논의보다 Indy7 이외의 로봇에서 실제로 작동하는 데모 하나가 더 중요하다. 논문과 전략 문서는 “왜 맞는지”를 설명하지만, 고객과 투자자를 설득하는 건 “실제로 되는 것”을 보여주는 것이다.

기술 방향의 정합성은 확인됐다. 이제 남은 건 만드는 것이다.

← All posts