Kog Inference Engine ile standart GPU'larda 3.000 token/s hıza ulaşan gerçek zamanlı LLM çıkarımını gösteren fütüristik bir veri merkezi sunucu rafı.

Kog AI: Standart GPU’larda 3.000 Token/s LLM Çıkarımı

Giriş: Kog AI, Gerçek Zamanlı LLM Çıkarımını Yeniden Tanımlıyor

Kog AI, yeni Kog Inference Engine (KIE) ile standart GPU’larda gerçek zamanlı Büyük Dil Modeli (LLM) çıkarımında çığır açıyor. Bu teknoloji önizlemesi, tek bir istek için saniyede 3.000 çıkış token’ı hızına ulaşarak (8× AMD MI300X GPU’da) yapay zeka dünyasında yeni bir dönem başlatıyor. Kog, AI çıkarımının özel donanım kartlarının hız rejimine ulaşabileceğini, tüm yazılım yığınını mimari/motor/çekirdek eş tasarımıyla optimize ederek kanıtlıyor. Bu makale, tek istekli LLM çözümleme hızının neden AI ajanları için önemli olduğunu, bunun öncelikli olarak bir bellek bant genişliği maksimizasyonu problemi olduğunu ve standart veri merkezi GPU’larında gizli olan yüksek çözümleme hızı tavanına nasıl ulaşılabileceğini detaylandırıyor.

Yapay Zeka Ajanları için Yeni Metrik: Tek İstek Çözümleme Hızı

Geleneksel çıkarım kıyaslamaları genellikle toplu verimi (tüm kullanıcılar için saniyede üretilen toplam token), ilk token’a kadar geçen süreyi (önceden doldurma gecikmesi) ve istek başına çözümleme hızını (token üretim hızı) karıştırır. Ancak yapay zeka ajanları için kritik olan, her uzun seri etkileşimi yöneten ve kullanıcının tüm yanıtı alana kadar beklediği ‘istek başına çözümleme hızı’dır. Otonom ajanlar denetleme, planlama, düzenleme, test etme ve revizyon gibi ardışık döngülerde çalıştığından, her adım bir öncekinin sonucuna bağlıdır. Bu hız, ürün ve kullanıcı deneyimini doğrudan etkiler. Örneğin, bir ajan 50.000 token üretmesi gereken bir iş akışında, 100 token/s hızında sekiz dakika beklerken, 3.000 token/s hızında bu süre yirmi saniyenin altına düşer. Bu fark, inşa edilebilecek ürün türünü tamamen değiştirir. Kog AI, bu nedenle ilk olarak tek istek gecikmesini optimize etmeye odaklanmıştır.

Bellek Bant Genişliği LLM Hızının Temel Darboğazı: GPU’lar Neden Yeterli Değil?

Tek istek (batch size 1) durumunda, otomatik gerilemeli çözümleme büyük ölçüde matris-vektör işlemlerine bağlıdır. Üretilen her token için modelin tüm aktif ağırlıkları GPU içindeki bellek hiyerarşisinden (HBM’den işlemcilere) geçmelidir. Bu nedenle, hızın birincil sınırı bellek bant genişliğidir. Modern yapay zeka GPU’ları, HBM bant genişliğinin bayt başına yüzlerce tepe FLOP sunsa da, token üretim hızı FLOP’larla sınırlanmadan önce bellek bant genişliği tarafından belirlenir. Bu yüzden tek istek hızı için merkezi metrik, Model FLOP Kullanımı (MFU) değil, Bellek Bant Genişliği Kullanımı (MBU) olarak öne çıkar. İyi haber şu ki, GPU’ların bellek bant genişliği zaten çok yüksektir. Örneğin, 8x NVIDIA H200 düğümü yaklaşık 30.7 TB/s, 8x AMD MI300X düğümü ise yaklaşık 33.6 TB/s etkili toplam bellek bant genişliği sunar. Örnek olarak, 4 GB aktif ağırlığa sahip 2 milyar parametreli bir modelde (FP16), 8x MI300X ile teorik olarak 8.400 token/s hıza ulaşılabilir. Gelecek GPU nesillerinin (Rubin ve MI450) bellek bant genişliğini 4 kat artıracağı ve bu sayede daha büyük modeller için aynı hızların veya aynı hızda 4 kat daha az GPU ile çalışmanın mümkün olacağı belirtiliyor. Ancak, bu teorik sınırlar çekirdek başlatma gecikmeleri, GPU içi senkronizasyon ve GPU’lar arası iletişim gibi faktörleri hesaba katmaz. 8-GPU’lu bir sunucuyu tek bir sürekli bellek akış makinesi gibi çalıştırmak zorlu bir problemdir.

Standart Çıkarım Yığınları Neden Mikro Saniyeleri Kaybediyor?

Saniyede 3.000 token hızında, token başına bütçe yaklaşık 333 mikrosaniyedir. 25 katmanlı bir modelde, katman başına sadece 1 mikrosaniye ek süre harcamak, zaman bütçesinin %7.5’ini tüketir. PyTorch veya Triton gibi yüksek seviyeli dillerde yazılan model grafik mantığı, genellikle esnek ve genel amaçlı kullanım için harikadır; ancak 333 mikrosaniyelik token bütçesi için uygun değildir. Sadece çekirdek başlatma ve temizleme maliyetleri bile (4.5 µs olarak ölçülmüştür) 25 katmanlı bir Transformer modelinde token başına 1.125 µs’ye varan bir ek yük oluşturabilir, bu da hızı 890 token/s ile sınırlar. Standart çıkarım yığınları, bellek akışını kesen, gecikmelere neden olan ve HBM bant genişliğini etkin bir şekilde kullanmayı engelleyen çeşitli mikro saniye kayıplarına yol açar. Kog AI, bu kayıpları sistematik olarak ortadan kaldırmak için aşağıdaki gibi çözümler sunar:

  • **Çekirdek Sınırları:** Geleneksel sistemlerdeki başlatma, temizleme, önbellek geri yazma ve zamanlayıcı gecikmeleri, Kog’un ‘kalıcı monokernel’ yaklaşımıyla tek bir GPU içi programda birleştirilerek ortadan kaldırılır.
  • **CPU Zamanlama ve Örnekleme:** Sunucu tarafındaki mantık yerine, Kog kritik yol üzerindeki LM-head örneklemesi de dahil olmak üzere tam GPU içi mantık kullanır.
  • **Izgara Senkronizasyonu:** Kog, matris çarpımı, dikkat, normalizasyon, örnekleme ve yönlendirme için optimize edilmiş, topolojiye duyarlı GPU içi senkronizasyon ve AllGather/AllReduce ilkelleri kullanır.
  • **GPU’lar Arası Kollektifler:** Tensor paralelliği için optimize edilmiş KCCL iletişim ilkelleri ve Kog’un Laneformer model mimarisindeki Gecikmeli Tensor Paralelliği (DTP) sayesinde gecikmeler 3 µs altına düşürülür.
  • **Birleşik Bellek Topolojisi:** Kog, bellek erişimlerinin gecikmesini etkileyen fiziksel donanım topolojisini (önbellek, HBM, IOD yonga setleri) dikkate alarak topolojiye duyarlı bellek erişimleri kullanır.
  • **Ağırlık Yeniden Yüklemeleri:** Kog, düşük batch size’lar için optimize edilmiş bellek düzenine sahip önbellek ve kaydediciye duyarlı çekirdeklerle yetersiz önbellek yönetimini ve karo yeniden kullanımını iyileştirir.
  • **GEMM Dışı İşler:** Yumuşatma, normlar, yönlendirme, örnekleme gibi hesaplamalar bellek akışını duraklatır; Kog, işlem bölümleri arasında çakışan önceden yükleme ile monokernel’i kullanarak bu duraklamaları en aza indirir.

Kısacası, standart çıkarım yığınları her yerde mikro saniyeleri boşa harcar ve Kog bu kayıpları ortadan kaldırarak HBM bant genişliğinin tam potansiyelini açığa çıkarır.

Kog’un Çözümü: Motor, GPU Kodu ve Model Mimarisinin Eş Tasarımı

Kog Inference Engine, sistemin katmanlarını (model, çalışma zamanı, GPU çekirdekleri) hız için eş tasarlayarak mevcut çıkarım motorlarının tek başına ele aldığı sorunlara bütünsel bir çözüm getiriyor. Kog, bu üç katmanın birbirine bağımlılıklarını tam olarak tanır ve bunları en yüksek hız için birlikte tasarlar. Bu nedenle Kog’un kritik çözümleme yolu, PyTorch, Triton veya NCCL gibi üçüncü taraf çerçevelere ve kitaplıklara güvenmek yerine, düşük seviyeli, el yapımı GPU kodu (NVIDIA’da PTX satır içi derleme ile CUDA, AMD’de CDNA ISA satır içi derleme ile HIP) ve Kog’un kendi KCCL iletişim işlevlerini kullanır.

Kog’un Temel Yenilikleri:

  • **Monokernel Çalışma Zamanı ve Optimize Edilmiş GPU Kodu:** Kog’un token üretimi, işlemler arası çekirdek dizileri yerine tek bir kalıcı GPU programı olarak çalışır. Bu monokernel, tüm çekirdek sınırlarını ortadan kaldırır, kritik yoldaki sunucu tarafı zamanlamayı ve CPU tarafı token örneklemesini yok eder. Bu sayede senkronizasyon, iletişim, önceden yükleme ve yürütme sırası çok daha sıkı kontrol edilir.
  • **KCCL GPU’lar Arası İletişimler:** KCCL, Kog’un tek istekli, tam düğümlü paralel model için özel olarak tasarlanmış toplu iletişim katmanıdır. Amacı, pik toplu bant genişliği değil, monokernel zamanlamasına entegre edilebilen öngörülebilir mikrosaniye ölçekli gecikmedir (genellikle 3 µs’nin altında).
  • **Laneformer Model Mimarisi:** Kog’un Laneformer model mimarisi, çoklu GPU düğümlerinin verileri nasıl taşıdığına dair yenilikçi bir tasarımdır. Gecikmeli Tensor Paralelliği (DTP) ile cihazlar arası iletişimin, kritik yolu bloke etmek yerine yararlı hesaplamalarla çakıştırılmasını sağlar. Model mimarisi, çoklu GPU çözümlemenin gecikme yapısı tarafından şekillendirilir.

Kog’un AMD MI300X GPU üzerindeki çiplet-topoloji çalışması, donanıma duyarlı yazılım tasarım yaklaşımına iyi bir örnektir. GPU’nun fiziksel yapısı, bellek erişim gecikmelerini ve hesaplama birimleri arasındaki kaymayı etkiler. Kog, bu topolojiyi haritalandırarak ve bellek arabelleklerini fiziksel olarak kontrol edilen konumlara çoğaltarak, 600 ns civarında istikrarlı bir bariyer gecikmesi elde eder. Bu yaklaşım, düşük seviyeli donanım mekanizmalarına inerek ve çıkarım motorunu buna göre ayarlayarak, üst düzey diller, kütüphaneler ve çerçeveler kullanıldığında ulaşılamayan ‘boş mikro saniyeleri’ bulmayı sağlar.

Kog Inference Engine Tech Preview: Bugüne Kadar Ulaşılan Hız

Kog AI, Kog Inference Engine’in 3.000 token/s/istek hızındaki teknoloji önizlemesini canlı bir oyun alanında (playground.kog.ai) kullanıma sunuyor. Bu önizleme, aynı yapılandırmada (tek 8x MI300X düğüm, batch size 1) Laneformer 2B modelini çalıştırmaktadır. Model, HumanEval kodlama kıyaslamasında %50 puan almıştır ki bu boyutu için oldukça iyidir. 4096 dizi uzunluğunda (uzun bağlam desteği 128k’ya kadar uzatılacaktır) standart otomatik gerilemeli çözümleme kullanır. Bu hıza, herhangi bir niceleme, spekülatif çözümleme, budama veya KV önbellek sıkıştırma gibi optimizasyon hileleri kullanılmadan ulaşılmıştır. NVIDIA H200 düğümünde ise 2.100 token/s/istek hızına ulaşılmaktadır ve AMD GPU hızıyla yakında eşleşmesi beklenmektedir.

Büyük Üçüncü Taraf MoE Modellerine Ölçeklendirme

Kog’un bir sonraki mühendislik adımı, aynı yığını FP8/FP4 niceleme ve çoklu token tahmin teknikleriyle (spekülatif çözümleme gibi) daha büyük üçüncü taraf açık ağırlıklı modellere (yoğun ve MoE) uygulamaktır. Ölçeklendirme argümanı, toplam parametre sayısından ziyade, her ileri geçişte taşınan ‘aktif parametre baytları’ üzerine kurulmuştur. MoE modellerinde, aktif parametreler toplamdan önemli ölçüde daha küçük olabilir.

Potansiyel Hız Tahminleri (Tokens/s):

Model (Aktif Parametre, Hassasiyet)8× H200 (~30.7 TB/s)8× MI300X (~33.6 TB/s)8× B200 / MI355X (~51.2 TB/s)8× MI450 (~125.4 TB/s)8× Rubin (~140.8 TB/s)
Qwen3-Coder-Next (3B, FP8)~3,650~4,000~6,100~14,900~16,800
GPT-OSS-120B (5.1B, MXFP4/BF16)~2,200~2,400~3,660~8,970~10,100
DeepSeek-V4-Flash (13B, MXFP4/FP8)~1,160~1,270~1,940~4,740~5,320
Kimi-K2.6 (32B, INT4/BF16)~325~355~545~1,330~1,500
Qwen3-Coder-480B-A35B (35B, FP8)~315~345~520~1,280~1,440
DeepSeek-V4-Pro (49B, MXFP4/FP8)~305~335~510~1,250~1,410

Bu tahminler, Kog’un teknoloji önizlemesinin %36 MBU’suna dayanarak elde edilmiştir. Üçüncü taraf modellerde Laneformer’ın Gecikmeli Tensor Paralelliği (DTP) kullanılamasa da, Kog’un KCCL kollektiflerinin hızı ve monokernel tasarımı, GPU’lar iletişim kurarken bile model ağırlıklarının hesaplama birimlerine sürekli akışını sağlayarak iletişimin etkisini önemli ölçüde azaltır. GPU HBM bant genişliği arttıkça ve Kog yığını olgunlaştıkça, büyük MoE modellerinin standart veri merkezi GPU’larında 1.000-5.000 token/s/istek bandına ulaşması beklenmektedir.

Sonuç

Özel çıkarım donanımları, yapay zeka ajanlarının yükselişiyle giderek önem kazanacak ayrı bir altyapı kategorisi olarak tek istekli üretim hızını belirlemiştir. Kog AI’nın genel önizlemesi, standart 8-GPU düğümünün, niceleme veya spekülatif çözümleme olmadan, tek istekte saniyede 3.000 çıktı token’ı üretebildiğini gösteriyor. Bu başarı, kalıcı çalışma zamanı, düşük seviyeli GPU kodu ve model mimarisini tek bir sistem olarak ele alarak elde edildi. Bu performans, yalnızca küçük özel modellere özgü değil; HBM bant genişliği arttıkça ve Kog yığını olgunlaştıkça, günümüzün yapay zeka ajanlarının sınırındaki büyük açık ağırlıklı MoE modellerine de taşınması bekleniyor.

Daha Fazla Keşfet

Kog AI Hakkında

Kog, 2023 yılında Gaël Delalleau tarafından Paris’te kurulan, yapay zeka ajanları için yenilikçi düşük seviyeli GPU mühendisliği ve LLM mimarisi araştırmalarıyla gerçek zamanlı bir çıkarım motoru geliştiren Paris merkezli bir yapay zeka altyapısı startup’ıdır. Kog, Varsity VC ve BPI France’ın Deep Tech Programı’ndan 5 milyon dolar yatırım almış ve stratejik sektörlere katkıda bulunan seçkin ulusal derin teknoloji şirketlerine verilen French Tech 2030 etiketini Ekim 2025’te almıştır.

Comments

No comments yet. Why don’t you start the discussion?

    Bir yanıt yazın

    E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir