AI Tech Briefing

SANA-WM, 한 장의 이미지로 1분짜리 가상 장면을 만들려는 시도

SANA-WM은 한 장의 이미지와 6-DoF 카메라 경로를 받아 720p급 1분 영상을 만들려는 2.6B 오픈소스 월드 모델이다. 이번에 볼 지점은 ‘영상 생성이 더 그럴듯해졌다’보다, 이런 장면 시뮬레이션이 단일 GPU에서 돌릴 수 있는 형태로 내려오고 있다는 점이다.

2026-05-17

왜 중요한가

  • 월드 모델이 대형 연구소의 비공개 데모에만 머무르지 않고, 논문·코드·데모 자료를 확인할 수 있는 형태로 나오고 있다.
  • 논문은 2.6B 파라미터, 약 21.3만 개 공개 영상 클립과 metric-scale pose supervision, H100 64장으로 15일 학습, 단일 GPU 60초 추론, RTX 5090 + NVFP4 기준 34초 denoise를 주장한다.
  • 비교할 때는 ‘영상이 멋진가’보다 긴 장면에서 같은 공간이 유지되는지, 카메라 경로를 잘 따르는지, 뒤쪽 구간에서 품질이 무너지지 않는지, 비용과 처리량이 어느 정도인지를 봐야 한다.
  • 로보틱스, 게임, 교육, 현장 안전, synthetic walkthrough에서는 완전한 물리 시뮬레이터 전 단계의 시각화 도구로 쓰일 여지가 있다.
  • 둘기/OpenClaw 관점에서도 긴 상태를 전부 softmax attention에 넣기보다, recurrent/linear memory와 가끔의 exact attention을 섞는 long-context 설계 힌트로 볼 수 있다.

해석

SANA-WM이 흥미로운 이유는 새 비디오 모델 하나가 더 나왔기 때문만은 아니다. 한 장의 시작 이미지와 카메라 움직임만으로 1분 가까운 장면을 이어 보려는 작업이, 공개 자료와 단일 GPU 실행을 이야기하는 단계까지 내려왔다는 점이 더 크다.

물론 여기서 말하는 월드 모델은 물리 법칙을 정확히 계산하는 시뮬레이터라기보다, 카메라 움직임에 맞춰 장면을 이어 그리는 비디오 생성기에 가깝다. 그래서 실제 활용성을 보려면 첫 프레임 품질보다 긴 구간에서 공간이 버티는지, 다시 방문한 장소가 일관적인지, 카메라 경로를 얼마나 지키는지를 봐야 한다.

지금 단계의 실용성은 ‘바로 제품에 넣는다’보다, 로봇 실행 전 장면 가설을 빠르게 훑어보거나 게임·교육·안전 콘텐츠의 사전 시각화를 만드는 쪽에 더 가깝다. 둘기 쪽에서는 긴 생성 작업을 평가할 때 품질, 제어 가능성, 비용을 함께 봐야 한다는 신호로 읽는 편이 안전하다.

누구에게 도움이 되나

  • 로보틱스/embodied AI 팀: 실제 로봇 실행 전 camera-controlled visual rollout으로 scene/action hypothesis를 빠르게 검토하는 simulation layer.
  • 게임/콘텐츠 팀: 완성 게임 자동 생성보다는 camera path ideation, environment blocking, moodboard, synthetic previz에 적합하다.
  • 제조/안전/교육 팀: 현장 동선, 위험 구역, 절차 교육용 synthetic walkthrough 제작.
  • 영상 제작팀: 1분 길이 concept exploration에는 유용할 수 있지만, production shot으로 쓰려면 editability/control failure를 더 검증해야 한다.

어디에 바로 써볼 수 있나

  • long-horizon multimodal generation을 볼 때 단순 frame quality보다 trajectory adherence, scene persistence, revisit consistency, late-window degradation, throughput/cost를 평가축으로 둔다.
  • 실험실 공간, 장비 배치, 강의/교육 상황의 synthetic walkthrough나 previz 자료를 만들 때 후보가 될 수 있다. 다만 사실 재현용 simulation이 아니라 설명/시각화 보조로 제한해야 한다.
  • 직접 video model을 붙이는 것보다, long task state를 cheap recurrent state + occasional exact recall로 유지하는 hybrid memory/attention 설계 힌트가 된다.
  • “open-source”라는 말만 믿지 않고 model weight 공개 여부, demo artifact, sample metadata, serving behavior를 확인하는 체크리스트로 삼을 수 있다.
  • 실제 로봇 실행 전 camera-controlled visual rollout으로 scene/action hypothesis를 빠르게 검토하는 simulation layer.
  • 완성 게임 자동 생성보다는 camera path ideation, environment blocking, moodboard, synthetic previz에 적합하다.
  • 현장 동선, 위험 구역, 절차 교육용 synthetic walkthrough 제작.
  • 1분 길이 concept exploration에는 유용할 수 있지만, production shot으로 쓰려면 editability/control failure를 더 검증해야 한다.

주요 출처

공식 repo / docs

주의점

  • 오늘 기준 모델 weight가 바로 공개되어 있지 않아 실제 추론은 재현하지 못했다.
  • 데모 영상은 선별됐을 가능성이 있다. 실패 사례, 프롬프트 민감도, 카메라 경로를 놓치는 비율을 따로 봐야 한다.
  • 720p라는 주장과 데모 파일의 실제 인코딩·화면비는 구분해야 한다. 확인한 샘플은 1280x704였다.
  • ‘월드 모델’이라는 이름은 강하지만, 물리적으로 정확한 시뮬레이터라기보다 카메라 조건을 넣은 비디오 생성기에 가깝다.
  • 공개 영상과 pose annotation을 쓰는 과정의 데이터 편향, 라이선스, 출처 문제는 별도 검토가 필요하다.
  • RTX 5090 + NVFP4 기준 34초라는 주장은 강하다. 다만 weight와 실행 환경이 공개되기 전까지는 운영 도입 판단을 미루는 게 맞다.

다음에 볼 포인트

  • 모델 weight와 runner가 실제로 공개되는지, 공개 뒤 같은 조건에서 단일 GPU 추론을 재현할 수 있는지 볼 것.
  • 긴 구간에서 장면 유지, 재방문 일관성, 카메라 경로 준수, 뒤쪽 구간 품질 저하를 비교할 수 있는 공개 벤치마크가 나오는지 볼 것.
  • 데모에 없는 실패 사례와 라이선스·데이터 출처 문제가 어떻게 설명되는지 확인할 것.