NVIDIA GTC 2026: Physical AI의 데이터-훈련-배포 풀스택 전략 정리
NVIDIA GTC 2026 Physical AI 세션 전체 정리. Cosmos 플랫폼(Predict, Transfer, Reason), Isaac Lab, Newton 물리엔진, GR00T 1.7 VLA, Jetson Thor까지 — 로봇 AI의 현재와 방향성을 분석한다.
NVIDIA GTC 2026에서 열린 Physical AI 세션을 직접 참석하여 정리했다. 데이터 생성부터 훈련, 배포까지 NVIDIA가 구축하고 있는 로봇 AI 풀스택을 다루었고, 마지막 Q&A에서는 VLA 모델의 산업 현장 적용 가능성에 대한 근본적인 질문도 오갔다.
핵심 문제 인식: 로보틱스에는 데이터가 없다
LLM은 인터넷의 수조 개 토큰으로 훈련되었다. Agentic AI는 test-time scaling과 강화학습으로 답변을 스스로 개선한다. 이 모든 AI는 대규모 컴퓨트 × 대규모 데이터의 결과물이다.
그런데 로보틱스에는 그런 데이터가 없다. 있는 건 기껏해야 수십만 시간의 텔레옵(teleoperation) 데이터뿐이고, 대부분 특정 태스크에 한정되어 있다.
NVIDIA가 던지는 질문: “데이터에 제약된 문제를 컴퓨트에 제약된 문제로 어떻게 전환할 것인가?”
해법은 두 가지 플랫폼이다:
- NVIDIA Omniverse — Isaac Sim, Isaac Lab 시뮬레이터
- NVIDIA Cosmos — World Foundation Model 플랫폼
이 두 플랫폼으로 대규모 합성 데이터를 생성하여 Physical AI를 훈련시킨다. 컴퓨트 양에 의해서만 제한된다. NVIDIA는 이것을 “로봇을 위한 데이터 플라이휠” 이라 부른다.
데이터 피라미드
| 계층 | 데이터 유형 | 규모 |
|---|---|---|
| 상단 | Real World Data | 소량, 비쌈. 로봇 1대가 하루 ~24시간 수집 |
| 중간 | Synthetic Data | 원칙적으로 무한. GPU당 하루 GB 단위 |
| 하단 | Web Data | 비정형, 멀티모달, 엑사바이트 |
목표: 중간 레이어를 키워서 훈련의 지배적 소스로 만드는 것. 합성 데이터가 실세계 데이터를 넘어서면 로봇이 모든 태스크에 범용화될 수 있다.
Cosmos 플랫폼
4대 구성요소:
- Foundation Models — Predict(미래 예측), Transfer(스타일 변환), Reason(물리적 추론 VLM)
- Frameworks — Cosmos Curator(데이터 큐레이션) + 파인튜닝 도구
- Blueprints — 특정 유스케이스별 모델 조합 레퍼런스 구현체
- Post-training & Inference Scripts + Cosmos Cookbook — 생태계 활용 가이드
Cosmos Predict
세계의 미래 상태를 비디오로 시뮬레이션한다. 텍스트/이미지/비디오 입력 → 미래 상태 비디오 출력. 최신 버전 Predict 2.5에서 최대 30초 미래 상태 생성 가능. 오픈소스(Hugging Face).
GR00T-Dream2Real: Predict 활용 연구
Predict 위에 구축된 foundation model로, 3단계 파이프라인이다.
Pre-training: 44,000시간의 1인칭(egocentric) 인간 비디오로 훈련. Latent actions를 프록시 라벨로 사용하여, 로봇 데이터 없이도 물리적 상호작용의 역학을 학습한다.
Post-training: 소량 텔레옵 데이터로 파인튜닝. 로봇의 액션 스페이스에 맞추는 단계다. 최소한의 실제 데이터로 현실적 로봇 롤아웃을 생성할 수 있게 된다.
Distillation: 기본 35 denoising steps → 4 steps로 증류. 거의 10 FPS 실시간 추론 달성.
실험에서 Unitree G1의 소량 텔레옵 데이터로 post-training한 결과, 훈련 중 본 적 없는 객체(종이, 꽃, 책)와의 상호작용에 성공했다. 텔레옵 데이터에 없던 환경에서도 작동했고, 데모 디바이스의 액션 컨디셔닝으로 실시간 텔레오퍼레이션도 가능했다.
Cosmos Policy
핵심 아이디어: Cosmos가 로봇 비디오를 생성할 수 있다면, 로봇을 제어하는 액션도 함께 생성할 수 있지 않을까?
Cosmos Policy는 Predict를 아키텍처 변경 없이 로봇 정책(policy)으로 변환한다. 로봇 액션, 상태, Value function을 추가 latent frames로 인코딩하여, 모델이 이미 처리할 줄 아는 동일 시퀀스에 주입하는 방식이다.
Cosmos Transfer
ControlNet 아키텍처로 비디오의 구조를 보존하면서 특정 요소만 선택적으로 변경한다.
핵심 설계 원칙: “무엇을 보존하고, 무엇을 바꿀 것인가?”
- 구조 보존: Edge 컨트롤 (control weight가 높을수록 강하게 보존)
- 색상 보존: Seg 컨트롤
- 변경 영역 지정: 바이너리 마스크 (흰색 픽셀 = 변경 영역)
Real-to-Real 증강 시에는 DINOv2 + SAM2(세그멘테이션), Depth Anything(뎁스) 등으로 컨트롤 모달리티를 생성한다.
데모: 로봇 팔이 양상추를 집어 와이어 메쉬에 넣는 태스크에서 양상추를 전구로 Object Change. 전구 형상에 맞게 그리퍼도 자동 조정되면서 나머지 환경은 그대로 유지된다.
Transfer로 데이터 증강 — 실험 결과
3가지 정책을 동일 하이퍼파라미터로 비교했다:
| 정책 | 구성 | 성공률 |
|---|---|---|
| Baseline | 100개 텔레옵 데모 | 훈련 장면에서만 성공 |
| Standard Augmented | 100개 + 기존 증강(노이즈, 지터) | 제한적 개선 |
| Cosmos Augmented | 100개 + 5x Cosmos Transfer 데이터 | ~80% |
실제 로봇 배포에서도 Cosmos 증강 정책이 성공했다. 100개 데모 + Cosmos Transfer만으로 강력한 일반화를 달성할 수 있다는 것이 핵심 메시지다.
Cosmos Reason
기존 VLM은 이미지/비디오 이해는 되지만 복잡한 시나리오에서의 추론이 약하다. Cosmos Reason은 시각적 이해 + **물리적 추론(physical reasoning)**을 결합한 reasoning VLM이다. Qwen 기반, Hugging Face 공개.
활용 분야:
- 데이터 어노테이션: Cosmos Curator 파이프라인에서 비디오에 dense caption 자동 생성
- 자동 품질 평가: Cosmos Predict/Transfer가 생성한 비디오의 환각(hallucination)을 감지하여 승인/거부. Cosmos Evaluator라는 도구로 GitHub에 공개되어 있다.
로봇 훈련
3가지 학습 패러다임
| 패러다임 | 방식 |
|---|---|
| Imitation Learning | 전문가 시연 모방. 인간 데모 필요 |
| Reinforcement Learning | 시행착오 + 보상 신호. 인간 시연 불필요 |
| VLA (Vision-Language-Action) | 비전 + 언어 입력 → 로봇 액션 출력 |
Isaac Lab
경량, 모듈러, 멀티 물리 훈련 프레임워크.
모듈러 아키텍처: 물리 엔진(PhysX ↔ Newton 교체 가능)과 렌더링(Warp, RTX 등 교체 가능)을 자유롭게 조합한다.
시각화 도구:
- Kit Visualizer (기존 Isaac Sim UI)
- 새 경량 Visualizer (RL 훈련 실시간 모니터링)
- Rerun Visualizer (웹 기반)
경량 시각화로 컴퓨트를 훈련 파이프라인에 집중시킬 수 있다.
렌더링 개선:
- RTX Fast Step: 기존 대비 2~3배 빠른 렌더링
- Albedo RGB 모드: 그림자/조명 없이 순수 색상만 추출, 더 빠른 실행
- Tile Rendering: RTX보다 훨씬 빠른 경량 옵션. MuJoCo 측 벤치마크에서 ~1,000+ FPS 달성. 성능 vs 품질 트레이드오프에 유용
Newton 물리 엔진
NVIDIA가 Disney Research, Google DeepMind와 협업 개발한 오픈소스 로보틱스 물리 엔진.
핵심 특징:
- Closed-loop 링키지 포함 기계적 링키지 시뮬레이션
- 고충실도 접촉/그립 모델링
- 변형체(Deformable) 지원 — 케이블, 천, 변형 부품
- GPU 가속 대규모 로봇 학습
모듈러 솔버 아키텍처:
| 솔버 | 용도 |
|---|---|
| MuJoCo Solver | 범용 메인 솔버 |
| Kamino Solver | 복잡한 closed-chain 메커니즘 |
| Deformable Solver | 변형 가능 객체 |
| VBD Solver | 러프 터레인/로코모션 |
강체뿐 아니라 다양한 관절과 재질을 다뤄야 하므로 솔버를 모듈식으로 교체/조합할 수 있게 설계했다.
Sim-to-Real 검증: ANYmal D(사족보행 로봇) 로코모션 정책을 Newton으로 훈련 → PhysX로 sim-to-sim 전이 → 실제 로봇 배포 성공. Newton의 고충실도 물리가 sim-to-real gap 감소에 기여한다.
GR00T 1.7 — VLA 모델
이번 GTC에서 릴리스. Cosmos 2B variant를 백엔드로 사용하고, Diffusion Transformer로 로봇 액션을 생성한다.
- 상업 라이센스 — 프로덕션 배포 가능
- 완전 커스터마이징 가능
- 다양한 로봇 임바디먼트 지원
배포 실증: Unitree(박스 → 선반), Agibot(테이블 정리), GAM(셔츠 접기) 등. 사전훈련 가중치로 zero-shot 평가가 가능하지만 특정 태스크에는 파인튜닝 권장.
3대 강점: Factory Floor Ready(상업 라이센스), 멀티스텝 태스크 Reasoning, 정밀 Dextrous Manipulation.
Sonic — 통합 휴머노이드 정책
기존에는 로코모션과 매니퓰레이션 컨트롤러가 별도였다. Sonic은 이를 단일 범용 정책으로 통합한다. 전신 VR 트래킹, 텍스트 기반 동작 생성 등에서 인간 유사의 유려한 모션을 시연했다.
Isaac Lab Arena — 정책 평가 프레임워크
Isaac Lab의 확장(extension)으로, 실제 배포 전 시뮬레이션에서 정책을 대규모 평가하는 오픈소스 프레임워크.
핵심 기능:
- Task Curation: 객체 위치 랜덤화, 환경 다양화, 1→N 태스크 스케일링
- Policy Evaluation: 성공 기준 메트릭 설정 및 체계적 평가
VLA든 RL이든 어떤 정책이든 가져와서 평가할 수 있다. GR00T, ACT, Pi Zero 0.5, RL 정책 등 다양한 벤치마크가 파트너들과 함께 진행 중이다.
추가 기능:
- Task Chaining: 복잡한 멀티스텝 태스크 연결
- 텍스트 기반 Scene Authoring: “물체를 전자레인지 위에 놓아라” 등 텍스트 명령으로 장면 구성 및 객체 교체
- Closed-Loop 워크플로우: 훈련 → 평가 → 재훈련 반복
배포 (Deployment)
휴머노이드 로봇 소프트웨어 스택
| 계층 | 역할 | 예시 |
|---|---|---|
| High-Level Reasoning | VLM/추론 | Cosmos Reason |
| Perception & Planning | VLA | GR00T, 내비게이션/매니퓰레이션 모델 |
| Real-Time Control | 전신 컨트롤러 | Sonic |
Jetson Thor
차세대 로보틱스 컴퓨트 플랫폼.
- 128GB 메모리
- 네이티브 FP4 양자화: Transformer 엔진이 FP4 ↔ FP8 자동 전환
- MIG (Multi-Instance GPU): GPU를 독립 인스턴스로 분할, 여러 워크로드 동시 처리
Jetson Orin에서 VLM + LLM + 로봇 액추에이션 3개 워크로드를 돌리려면 Orin 3대가 필요하지만, Thor는 1대로 처리한다.
Jetson JetPack
Jetson 공식 소프트웨어 스택. VLA(GR00T), LLM/VLM, NVIDIA Isaac 통합 지원.
Holoscan Sensor Bridge
카메라, LiDAR, IMU, 액추에이터 등 다양한 센서를 이더넷으로 통합 연결. Camera over Ethernet으로 센서 데이터를 GPU 메모리에 직접 스트리밍하여 레이턴시를 줄이고 CPU 오버헤드를 최소화한다.
로봇 안전 플랫폼 (Thor IDX Safety)
- Inside-out: 온보드 센서 기반 안전
- Outside-in: 인프라 센서 기반 안전
- Functional Safety Island: 독립 안전 프로세서로 크리티컬 워크플로우 격리
- ISO 26262, IEC 61508 준수
SOMA (Universal Motion Translator)
연구실마다 다른 인체 3D 모델의 스켈레톤/포맷 호환 문제를 해결하는 범용 모션 번역기. 어떤 소스(비디오, 텍스트 생성 모션, 모캡 데이터셋)든 단일 포맷으로 변환한 뒤 SOMA Retargeter로 로봇 관절에 매핑한다.
Isaac TeleOp
시뮬레이션과 실제 로봇 텔레오퍼레이션을 단일 프레임워크로 통합. 디바이스 통합 문제(헤드셋, 풋 페달, 모션 트래커 등)를 해결한다.
NVIDIA Osmo
Physical AI의 빌드-테스트-검증을 통합 관리하는 오픈소스 오케스트레이션 플랫폼. YAML 파일로 워크플로우를 정의하여 데이터 획득 → 증강 → 훈련을 자동 오케스트레이션한다. Microsoft Azure, AWS와 파트너십. Field AI, Hexagon, Teradyne 등이 활용 중.
NVIDIA MASS 오픈소스 데이터셋
| 항목 | 규모 |
|---|---|
| 합성/웹 로보틱스 궤적 | ~500,000개 |
| 실제 라이브 데이터 | ~2,000시간 |
| USD & Sim-Ready 에셋 | ~1,000개 |
상업적 사용 가능, 사전 검증 완료. 지속 확장 예정.
End-to-End 데모
NVIDIA 본사에서 시연된 통합 데모. 태스크: “가장 건강한 간식 가져와.”
- Cosmos Reason으로 명령 분석
- 시뮬레이션 훈련 내비게이션 정책으로 테이블까지 이동
- Egocentric 뷰 + Vision-centric 매핑으로 위치 인식
- 사과(건강) vs 쿠키(비건강) 판별 → 사과 선택
- Whole-body controller로 안정적 보행하며 복귀
- 명령자에게 사과 전달
이 세션에서 다룬 모든 도구 — Cosmos Reason, 시뮬레이션 훈련 정책, 전신 컨트롤러 — 가 하나의 시스템으로 통합 작동하는 실증이다.
Q&A에서 나온 핵심 논의
Cosmos 3.0 예고
올해 하반기(Q3 예상)에 Cosmos 3.0 출시 예정. Predict, Transfer, Reason을 단일 통합 옴니모달(Omnimodal) 모델로 합친다. 현재는 이름과 대략적 아키텍처만 발표된 상태.
Egocentric 데이터의 스케일링 법칙
EgoScale 논문에서 egocentric 데이터에 명확한 스케일링 법칙이 존재함을 입증했다. 데이터를 추가할수록 성능이 체계적으로 향상된다. 이 결과가 향후 GR00T/Cosmos 후속 릴리스에 반영될 예정.
Foundation Model vs 로봇 특화 데이터
Cosmos는 World Foundation Model이므로 특정 로봇/환경에 묶이면 안 된다. 따라서 텔레옵(로봇 특화) 데이터는 반드시 post-training에서만 사용하고, pre-training은 범용 egocentric 인간 비디오로 유지한다.
센서 어댑터 보드 현황
Holoscan용 어댑터 보드는 아직 커스텀 설계 단계. IC 제조사들이 데모/쇼케이스용 디자인을 만들고 있지만, 표준화된 상용 제품은 아직 없다.
Cosmos Evaluator
Cosmos Reason 기반의 자동 품질 평가 도구. 생성된 비디오의 환각을 감지하여 승인/거부한다. GitHub에 공개되어 있고, 커스텀 체커를 직접 빌드할 수도 있다.
VLA의 근본적 한계 — “Factory Floor Ready”는 진짜인가?
Q&A에서 가장 날카로웠던 질문이다.
“GR00T 1.7이 Factory Floor Ready라고 했는데, VLA는 본질적으로 확률적(stochastic) 모델이다. 같은 입력을 두 번 넣으면 다른 출력이 나온다. 공장에서는 0.1% 불량률도 큰 문제인데, 반복정밀도(repeatability)를 어떻게 보장하는가?”
이것은 이 세션 전체를 관통하는 근본 질문이다. 기존 산업용 로봇이 99.99%+ 반복정밀도를 달성하는 이유는 확률 모델이 아니라 사전 프로그래밍된 경로를 정밀 서보 제어로 추종하기 때문이다. VLA로 이것을 대체한다는 건 패러다임 자체가 다른 이야기다.
NVIDIA의 현재 답변은 명확하지 않다. 80% 성공률은 연구 단계의 숫자이고, Safety Island은 물리적 안전이지 태스크 정확도 보장이 아니다. 이 gap — 확률적 VLA 출력을 산업 현장이 요구하는 결정론적 정밀도로 전환하는 것 — 이 아직 풀리지 않은 문제라는 점이 세션에서 드러났다.
전체 아키텍처 조감도
NVIDIA가 구축하고 있는 Physical AI 풀스택을 한눈에 보면:
[데이터 생성]
Cosmos Predict → 미래 상태 비디오 생성
Cosmos Transfer → 구조 보존하며 데이터 증강
Cosmos Reason → 데이터 어노테이션 + 품질 평가
Omniverse/Isaac Sim → 고충실도 시뮬레이션 환경
↓
[훈련]
Isaac Lab → 모듈러 훈련 프레임워크 (Newton/PhysX + RTX/Tile)
GR00T 1.7 → VLA 모델 (Cosmos 2B + Diffusion Transformer)
Sonic → 통합 휴머노이드 정책
↓
[평가]
Isaac Lab Arena → 대규모 정책 벤치마킹
↓
[배포]
Jetson Thor → 엣지 컴퓨팅 (128GB, MIG, FP4)
Holoscan → 센서 통합
Thor IDX Safety → 물리적 안전
JetPack → 소프트웨어 스택
↓
[오케스트레이션]
Osmo → 전체 파이프라인 YAML 자동화
데이터가 없는 로보틱스의 근본 문제를, 합성 데이터 생성(Cosmos) + 시뮬레이션(Omniverse) + 엣지 컴퓨팅(Jetson)의 수직통합으로 풀겠다는 것이 NVIDIA의 전략이다. 빠져있는 조각은 산업용 로봇 프로토콜 통합(EtherCAT, CAN 등)과 확률적 모델의 결정론적 정밀도 보장 — 이 두 가지가 아직 열려있는 문제이고, 동시에 기회다.
← All posts