SANA-WM yapay zeka dünya modelinin tek bir GPU kullanarak dakikalarca süren yüksek çözünürlüklü ve kontrol edilebilir videolar üretme yeteneğini gösteren futuristik bir sahne.

SANA-WM: Tek GPU ile Bir Dakikalık, Kontrol Edilebilir 720p Dünya Modellemeleri

SANA-WM Nedir?

NVIDIA tarafından geliştirilen SANA-WM, tek bir görüntü ve kamera yörüngesinden yola çıkarak bir dakikalık, kontrol edilebilir 720p videolar üretebilen, 2.6 milyar parametreli açık kaynaklı bir dünya modelidir. Bu model, tek bir GPU üzerinde yüksek verimlilikle çalışacak şekilde tasarlanmıştır.

Temel Özellikleri ve Yenilikleri

SANA-WM, uzun süreli ve yüksek kaliteli video üretimi için dört anahtar özelliğe sahiptir:

Dakika Ölçeğinde Uzun Süreli Üretim

Model, ‘Hibrit Doğrusal Dikkat’ (Hybrid Linear Attention) mekanizması sayesinde bir dakikaya kadar süren, tutarlı dünya modellemeleri gerçekleştirebilir. Bu teknoloji, kare bazlı Gated DeltaNet ile periyodik softmax’ı birleştirerek bellek açısından verimli uzun bağlam modellemesi sağlar.

Hassas Kamera Kontrolü

SANA-WM, 6 Serbestlik Derecesi (6-DoF) kamera yörüngelerini yüksek doğrulukla takip edebilen ‘Çift Dallı Kamera Kontrolü’ne sahiptir. Bu sistem, kaba küresel poz dalı ve ince piksel hizalı geometrik dalı birleştirerek metrik kamera yollarını hassas bir şekilde izler.

İki Aşamalı Yüksek Kaliteli Video İyileştirmesi

Model, uzun süreli görüntü kalitesini artırmak için özel bir ‘ikinci aşama uzun video iyileştiricisi’ (second-stage long-video refiner) kullanır. Bu 17 milyar parametreli iyileştirici, doku, hareket ve geç pencere kalitesini artırarak daha keskin ve tutarlı sonuçlar sunar.

Düşük Hesaplama Maliyeti ve Yüksek Verimlilik

SANA-WM’nin eğitimi için 64 adet H100 GPU’da 15 gün süren bir süreye ihtiyaç duyulurken, dağıtım ve çıkarım aşamasında tek bir H100 GPU ile bir dakikalık 720p video oluşturulabilir. Distile edilmiş varyantı ise NVFP4 nicelemesi ile tek bir RTX 5090 üzerinde 60 saniyelik 720p bir klibi sadece 34 saniyede işleyebilir.

SANA-WM’nin Mimari Tasarımı

SANA-WM’nin mimarisi, yüksek verimlilik ve görsel kalite sağlamak üzere dört ana tasarım ilkesi üzerine inşa edilmiştir:

  1. **Hibrit Doğrusal Dikkat:** Bellek verimli uzun bağlam modellemesi için kare bazlı Gated DeltaNet ile softmax dikkatini birleştirir.
  2. **Çift Dallı Kamera Kontrolü:** Hassas 6-DoF yörünge takibini garanti eder.
  3. **İki Aşamalı Üretim Hattı:** Kalite ve tutarlılığı artırmak için birinci aşama çıktılarına uzun video iyileştirici uygular.
  4. **Sağlam Açıklama Hattı:** Yüksek kaliteli, uzamsal-zamansal tutarlı eylem etiketleri üretmek için genel videolardan doğru metrik ölçekli 6-DoF kamera pozlarını çıkarır.

Bu tasarımlar sayesinde SANA-WM, yaklaşık 213 bin halka açık video klibi ve metrik ölçekli poz denetimi kullanarak eğitilmiş, LingBot-World ve HY-WorldPlay gibi endüstriyel taban çizgilerine benzer görsel kalite sunarken verimlilikte önemli iyileştirmeler sağlamıştır. Önceki açık kaynaklı modellere göre daha güçlü eylem takip doğruluğu ve 36 kat daha yüksek verim sunmaktadır.

Comments

No comments yet. Why don’t you start the discussion?

    Bir yanıt yazın

    E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir