Transformer Eğitiminde Kritik Bellek Darboğazı ve Çözüm Arayışları
Transformer tabanlı yapay zeka sistemlerinin eğitimi yoğun doğrusal cebir işlemlerine dayanır. Ancak, uçtan uca eğitim süresinin önemli bir kısmı, bellek yoğun operatörler üzerinde harcanmaktadır. Normalizasyon, aktivasyonlar, artan güncellemeler ve azaltmalar gibi hesaplamalar, büyük ara tensörleri küresel bellek üzerinden tekrar tekrar hareket ettirirken çok az aritmetik işlem yapar. Bu durum, veri hareketini, optimize edilmiş eğitim yığınlarındaki giderek artan bir darboğaz haline getirmektedir.
CODA: Transformer Bloklarını GEMM-Epilogue Programlarına Dönüştüren Yenilikçi Yaklaşım
Bu kritik performans sorununu gidermek amacıyla CODA adında yeni bir GPU kernel soyutlaması sunulmuştur. CODA, bu bellek yoğun hesaplamaları ‘GEMM-artı-epilog’ programları olarak ifade eder. Bu yaklaşımın temelinde, ayrı çerçeve çekirdekleri olarak gösterilen birçok Transformer operatörünün, bir GEMM çıkış döşemesi henüz belleğe yazılmadan, çip üzerinde kalırken yürütülecek şekilde cebirsel olarak yeniden parametrelendirilebileceği gözlemi yatmaktadır.
CODA’nın Temel Mimari Avantajları ve Özellikleri
CODA soyutlaması, GEMM ana döngüsünü sabit tutar ve ölçeklendirme, azaltmalar, ikili dönüşümler ve birikim için küçük bir dizi birleştirilebilir epilog primitifini ortaya çıkarır. Bu kısıtlanmış arayüz, uzmanlar tarafından yazılan GEMM’lerin performans yapısını korurken, standart bir Transformer bloğunun ileri ve geri geçişindeki dikkat dışı hemen hemen tüm hesaplamaları kapsayacak kadar ifade gücüne sahiptir.
- Bellek yoğun Transformer operatörlerini GEMM-artı-epilog programları olarak yeniden ifade eder.
- Ara verilerin çip üzerinde kalmasını sağlayarak küresel bellek hareketini önemli ölçüde azaltır.
- Ölçeklendirme, azaltmalar, ikili dönüşümler ve birikim gibi temel işlemleri kapsayan birleştirilebilir epilog primitifleri sunar.
- Uzman yazılı GEMM’lerin yüksek performans yapısını korur.
- Standart Transformer bloklarındaki dikkat dışı hesaplamaların neredeyse tamamını kapsar.
Uygulama Sonuçları ve Geleceğe Yönelik Çıkarımlar
Temsili Transformer iş yüklerinde hem insan hem de büyük dil modelleri (LLM) tarafından yazılan CODA çekirdekleri yüksek performans göstermiştir. Bu durum, GEMM-artı-epilog programlamanın, çerçeve düzeyinde üretkenliği donanım düzeyinde verimlilikle birleştirmek için pratik bir yol sunduğunu açıkça ortaya koymaktadır. CODA, Transformer eğitiminde karşılaşılan veri hareketini optimize ederek yapay zeka eğitim süreçlerini daha hızlı ve verimli hale getirme potansiyeli taşımaktadır.

