AI Tech Briefing

SANA-WM, 한 장의 이미지로 1분짜리 가상 장면을 만들려는 시도

SANA-WM은 한 장의 이미지와 6-DoF 카메라 경로를 받아 720p급 1분 영상을 만들려는 2.6B 오픈소스 월드 모델이다. 이번에 볼 지점은 ‘영상 생성이 더 그럴듯해졌다’보다, 이런 장면 시뮬레이션이 단일 GPU에서 돌릴 수 있는 형태로 내려오고 있다는 점이다.

2026-05-17

왜 중요한가

월드 모델이 대형 연구소의 비공개 데모에만 머무르지 않고, 논문·코드·데모 자료를 확인할 수 있는 형태로 나오고 있다.
논문은 2.6B 파라미터, 약 21.3만 개 공개 영상 클립과 metric-scale pose supervision, H100 64장으로 15일 학습, 단일 GPU 60초 추론, RTX 5090 + NVFP4 기준 34초 denoise를 주장한다.
비교할 때는 ‘영상이 멋진가’보다 긴 장면에서 같은 공간이 유지되는지, 카메라 경로를 잘 따르는지, 뒤쪽 구간에서 품질이 무너지지 않는지, 비용과 처리량이 어느 정도인지를 봐야 한다.
로보틱스, 게임, 교육, 현장 안전, synthetic walkthrough에서는 완전한 물리 시뮬레이터 전 단계의 시각화 도구로 쓰일 여지가 있다.
둘기/OpenClaw 관점에서도 긴 상태를 전부 softmax attention에 넣기보다, recurrent/linear memory와 가끔의 exact attention을 섞는 long-context 설계 힌트로 볼 수 있다.

해석

SANA-WM이 흥미로운 이유는 새 비디오 모델 하나가 더 나왔기 때문만은 아니다. 한 장의 시작 이미지와 카메라 움직임만으로 1분 가까운 장면을 이어 보려는 작업이, 공개 자료와 단일 GPU 실행을 이야기하는 단계까지 내려왔다는 점이 더 크다.

물론 여기서 말하는 월드 모델은 물리 법칙을 정확히 계산하는 시뮬레이터라기보다, 카메라 움직임에 맞춰 장면을 이어 그리는 비디오 생성기에 가깝다. 그래서 실제 활용성을 보려면 첫 프레임 품질보다 긴 구간에서 공간이 버티는지, 다시 방문한 장소가 일관적인지, 카메라 경로를 얼마나 지키는지를 봐야 한다.

지금 단계의 실용성은 ‘바로 제품에 넣는다’보다, 로봇 실행 전 장면 가설을 빠르게 훑어보거나 게임·교육·안전 콘텐츠의 사전 시각화를 만드는 쪽에 더 가깝다. 둘기 쪽에서는 긴 생성 작업을 평가할 때 품질, 제어 가능성, 비용을 함께 봐야 한다는 신호로 읽는 편이 안전하다.

누구에게 도움이 되나

로보틱스/embodied AI 팀: 실제 로봇 실행 전 camera-controlled visual rollout으로 scene/action hypothesis를 빠르게 검토하는 simulation layer.
게임/콘텐츠 팀: 완성 게임 자동 생성보다는 camera path ideation, environment blocking, moodboard, synthetic previz에 적합하다.
제조/안전/교육 팀: 현장 동선, 위험 구역, 절차 교육용 synthetic walkthrough 제작.
영상 제작팀: 1분 길이 concept exploration에는 유용할 수 있지만, production shot으로 쓰려면 editability/control failure를 더 검증해야 한다.

어디에 바로 써볼 수 있나

long-horizon multimodal generation을 볼 때 단순 frame quality보다 trajectory adherence, scene persistence, revisit consistency, late-window degradation, throughput/cost를 평가축으로 둔다.
실험실 공간, 장비 배치, 강의/교육 상황의 synthetic walkthrough나 previz 자료를 만들 때 후보가 될 수 있다. 다만 사실 재현용 simulation이 아니라 설명/시각화 보조로 제한해야 한다.
직접 video model을 붙이는 것보다, long task state를 cheap recurrent state + occasional exact recall로 유지하는 hybrid memory/attention 설계 힌트가 된다.
“open-source”라는 말만 믿지 않고 model weight 공개 여부, demo artifact, sample metadata, serving behavior를 확인하는 체크리스트로 삼을 수 있다.
실제 로봇 실행 전 camera-controlled visual rollout으로 scene/action hypothesis를 빠르게 검토하는 simulation layer.
완성 게임 자동 생성보다는 camera path ideation, environment blocking, moodboard, synthetic previz에 적합하다.
현장 동선, 위험 구역, 절차 교육용 synthetic walkthrough 제작.
1분 길이 concept exploration에는 유용할 수 있지만, production shot으로 쓰려면 editability/control failure를 더 검증해야 한다.

주요 출처

공식 repo / docs

주의점

오늘 기준 모델 weight가 바로 공개되어 있지 않아 실제 추론은 재현하지 못했다.
데모 영상은 선별됐을 가능성이 있다. 실패 사례, 프롬프트 민감도, 카메라 경로를 놓치는 비율을 따로 봐야 한다.
720p라는 주장과 데모 파일의 실제 인코딩·화면비는 구분해야 한다. 확인한 샘플은 1280x704였다.
‘월드 모델’이라는 이름은 강하지만, 물리적으로 정확한 시뮬레이터라기보다 카메라 조건을 넣은 비디오 생성기에 가깝다.
공개 영상과 pose annotation을 쓰는 과정의 데이터 편향, 라이선스, 출처 문제는 별도 검토가 필요하다.
RTX 5090 + NVFP4 기준 34초라는 주장은 강하다. 다만 weight와 실행 환경이 공개되기 전까지는 운영 도입 판단을 미루는 게 맞다.

다음에 볼 포인트

모델 weight와 runner가 실제로 공개되는지, 공개 뒤 같은 조건에서 단일 GPU 추론을 재현할 수 있는지 볼 것.
긴 구간에서 장면 유지, 재방문 일관성, 카메라 경로 준수, 뒤쪽 구간 품질 저하를 비교할 수 있는 공개 벤치마크가 나오는지 볼 것.
데모에 없는 실패 사례와 라이선스·데이터 출처 문제가 어떻게 설명되는지 확인할 것.