Yapay zeka kodlama araçlarının OpenSCAD ile inşa ettiği antik Pantheon'un fütüristik bir temsili.

AI Kodlama Araçları Pantheon’u OpenSCAD’de Nasıl İnşa Etti?

AI Kodlama Araçları Pantheon’u OpenSCAD’de Nasıl İnşa Etti? Bir LLM Benchmark İncelemesi

ModelRift ekibi, yapay zeka kodlama araçlarının uzamsal geometri oluşturma yeteneklerini test etmek amacıyla pratik bir kıyaslama testi gerçekleştirdi: Çeşitli AI araçlarından Pantheon’u OpenSCAD’de inşa etmelerini istedi. Platformlarında her 3D model için OpenSCAD üreten ModelRift için LLM’lerin uzamsal geometriyi ele alma becerisi doğrudan ürün geliştirme kapasitelerini etkiliyor. Bu benchmark, mimari referans materyalini parametrik CAD koduna dönüştürme ve OpenSCAD CLI kullanarak önizlemeler oluşturup yineleme yapma başarısını değerlendirmeyi amaçladı. Görsel ve mimari odaklı talimat, rotunda, kubbe, sundurma, sütunlar, alınlık ve tanınabilir ön detaylar dahil olmak üzere Pantheon’un referans görüntülerden inşa edilmesiydi.

Neden Pantheon? Geleneksel Bir Testten Daha Fazlası

Bu test basit bir OpenSCAD sözdizimi testi değildi; çünkü mevcut tüm kodlama LLM’leri, OpenSCAD’de basit bir ‘delikli küp’ modelini mükemmel şekilde üretebilirler. Pantheon, Boolean operasyonları, radyal simetri, ekstrüzyonlar ve temiz yapıcı şekiller için daha uygun olan OpenSCAD’in yeteneklerini sergileyen bir orta noktayı temsil ettiği için daha faydalı bir kıyaslama nesnesi oldu. Büyük radyal rotunda ve kubbesi, merkezi oculus, düz sundurma yüzeyleri, sütunlar, basamaklı tabanlar ve üçgen alınlığıyla, OpenSCAD için imkansız olmadan açıklayıcı bir yapıya sahip. Ayrıca, tanınabilir olması, daha iyi sonuçların yuvarlak tambur, dikdörtgen sundurma, kubbe halkaları ve ön cephe arasındaki ilişkileri doğru bir şekilde yakalamasını gerektiriyor.

Neden OpenSCAD? LLM’ler için İdeal Hedef

OpenSCAD, modelin kompakt bir kelime dağarcığına sahip düz metin kodu olması nedeniyle LLM tarafından üretilen geometri için güçlü bir hedeftir. Bir yapay zeka, bir yapıyı iç içe dönüşümler, Boolean operasyonları, silindirler, ekstrüzyonlar, döngüler ve adlandırılmış modüller olarak tanımlayabilir. Bu, dil modellerinin yapı hakkında halihazırda nasıl akıl yürüttüğüne çok daha yakın. Bu durum, ModelRift’in OpenSCAD etrafında inşa edilmesinin ana nedeni. OpenSCAD ile LLM, ‘bir yarıçap etrafına 28 tekrar eden sütun yap’ veya ‘bir kubbeden oculus çıkar’ diyebilir. Sonuç, incelenebilir, tekrarlanabilir ve kolayca düzeltilebilir. Bu metin öncelikli yapı, OpenSCAD’in parametrik kullanıcı arayüzü katmanlarıyla iyi çalışmasını sağlar. Blender gibi araçlar belirli iş akışları için faydalı olsa da, OpenSCAD geometrinin kendisini bir yapıt olarak tutar. OpenSCAD, yapıcı, parametrik ve çoğunlukla sert yüzeyli nesneler için en iyisidir ve Pantheon bu bölgeye tam oturuyor. Ayrıca, 3D baskının pratik dosya çıkış tarafıyla da temiz bir şekilde eşleşir: STL temel ağ formatı olmaya devam ederken, 3MF zenginleştirilmiş montaj ve renk bilgisi taşıyabilir. Bu nedenle, ModelRift’in LLM’lerden üretmesini istediği geometri türü için kullanışlı bir kıyaslama.

Kullanılan Prompt ve Referans Görüntüler

Benchmark için kullanılan prompt şuydu: see two ref images and build .scad file with openscad implementation of pantheon. use openscad CLI (available) to preview your work (by rendering openscad model to .png) and iterate until you are happy with the result. Yapay zeka araçlarına ön cephe ve kuşbakışı olmak üzere iki referans görüntü sağlandı.

Benchmark Sonuçları: Performans ve Kalite Karşılaştırması

Farklı yapay zeka kodlama araçlarının Pantheon modelini OpenSCAD’de oluşturma yetenekleri, hız ve kalite açısından değerlendirildi. İşte öne çıkan sonuçlar:

  • Cursor 3.5 / Composer 2.5: En hızlı ancak en zayıf çıktıya sahipti. Kubbe ve sundurmayı yakalasa da oranlar, renk disiplini ve mimari detaylar en kötüydü.
  • Codex 5.5 High: Entablatürdeki yazıt dahil olmak üzere güçlü detay yoğunluğu gösterdi. Ancak final STL’nin PNG önizlemesiyle eşleşmemesi, puanını düşürdü.
  • Claude Code 2.1 / Opus 4.7: Cursor’dan daha iyi bir yapıya ve belirgin bir sundurmaya sahipti, ancak daha güçlü sonuçlara göre çok monokrom ve ikna edici değildi.
  • Claude Code 2.1 / Sonnet 4.6: Temiz bir kütle, dengeli oranlar ve en makul genel okumayı sundu, ancak uygulaması en uzun sürdü.
  • Google Antigravity 2.0 / Gemini 3.5 Flash High (En İyi Otonom Sonuç): Gerçek Pantheon boyutlarını kullandı, yazıtı içerdi ve imza niteliğindeki iç tavanı (kafesli tavan) uygulayan tek ajandı. Kalite puanı 4.5/5, hız 1/5.
  • ModelRift / Gemini Flash 3.0 (İnsan Destekli Süreç Kazananı): ModelRift’in iteratif açıklama iş akışı ile Gemini Flash 3.0 kullanılarak elde edilen en iyi otonom olmayan sonuçtu. Yaklaşık 10 dakika sürdü ve kalite puanı 3.8/5.

Bu puanlar sadece bu kıyaslamaya özel olup genel model sıralamalarını yansıtmamaktadır. Kalite puanları bilinçli olarak muhafazakar tutulmuş; en iyi sonuç bile mükemmel bir Pantheon modeline yakın değildi.

İş Akışı Notları: Araç Kullanımı ve Görsel Geri Bildirimin Önemi

LLM’lerin yerel OpenSCAD araç zincirini başarıyla kullanabilmesi dikkat çekiciydi; tüm ajanlar PNG önizlemelerini oluşturmak için OpenSCAD CLI’yı sorunsuz bir şekilde kullandı. Ancak, asıl sınırlayıcı faktör, araç erişimi değil, geometrik yargı, kamera kurulumu ve önizlenen modelin temiz bir nihai ağa dışa aktarılıp aktarılmadığıydı.

  • Codex Desktop: LLM’in bağlama yüklediği görüntüleri doğrudan konuşma içinde göstermesi, görsel CAD çalışması için çok kullanışlıydı. Önizleme yinelemelerini takip etmeyi kolaylaştırdı.
  • Cursor Agent: En hızlı etkileşim döngüsüne sahipti ve kullanıcı arayüzü, oluşturulan OpenSCAD kodunu yapılandırılmış bir model planıyla yan yana gösteriyordu. Ancak çıktı kalitesi yavaş çalışanların gerisinde kaldı.
  • Claude Code: Daha terminal odaklıydı. Görüntüleri okudu ve OpenSCAD komutlarıyla yineledi, ancak modelin inşa edilirken süreç daha az görseldi.

Detaylı Sonuçlar: Google Antigravity 2.0 / Gemini 3.5 Flash High

Google’ın Antigravity 2.0’ı I/O 2026’da ve Gemini 3.5 Flash’ı Mayıs 2026’da piyasaya sürmesinin hemen ardından eklenen bu çalışma, Flash 3.5’in güçlü bir erken sinyaliydi ve bu kıyaslamadaki en iyi tam otonom model sonucunu verdi. Antigravity, diğer otonom ajanların yapmadığı bir şeyi yaptı: referans görüntülerine sadece göz atmak yerine gerçek Pantheon parametrelerini aradı. Plan ve kod, rotunda, kubbe, sundurma ve oculus için açık ölçümler kullandı ve bunları parametrik OpenSCAD değerlerine dönüştürdü. Uygulama planı, Pantheon’un detaylı, görsel olarak çarpıcı ve boyutsal olarak doğru bir 3D modelini OpenSCAD kullanarak uygulayın şeklinde mimari odaklıydı. Ayrıca, Pantheon’un sadece dışarıdan bir kubbe olmadığını göstermek için bir kesit modu da önerdi. En güçlü detay, Pantheon kubbe iç kısmı 5 halkada 28 kafese sahiptir. Bunları OpenSCAD’de matematiksel olarak çıkarmak son derece detaylı ve harika görünüyor. şeklinde gerçek kafes yapısını içeren tavanıydı. Dış sonuç, karışık gri ve kırmızı sütun malzemeleri, okunabilir bir yazıt (M AGRIPPA L F COS TERTIVM FECIT), basamaklı çatı halkaları ve rotunda, ara blok, sundurma ve kubbe arasındaki doğru geniş ilişki gibi genellikle hızlı OpenSCAD çıktılarında atlanan birkaç detayı da içeriyordu. Hız açısından 1/5 puan alsa da, kalitede 4.5/5 ile otonom çıtayı yükseltti.

ModelRift / Gemini Flash 3.0: İnsan Destekli Yaklaşım

Bu sonuç, ModelRift’in Gemini Flash 3.0 ile insan destekli bir süreçle elde edildi ve tam otonom bir kıyaslama değildi. Yaklaşık 10 dakika süren iş akışı, Claude Code süresinin yaklaşık 2 katıydı. Kalite 3.8/5 ile orijinal otonom partiden daha iyiydi. Model hala mükemmel olmasa da, sundurma, sütun düzeni, çatı, kubbe nervürleri ve genel kütle daha tutarlıydı. Temel fark, görsel geri bildirimin sadece metinle açıklanmak yerine doğrudan mevcut render’a eklenebilmesiydi. İlk ModelRift geçişi hızlı bir şekilde geçerli bir model üretse de, çatı ve sundurma detayları hala kaba idi. İşte burada açıklama modu yardımcı oldu. Uzamsal bir düzeltme yazmak yerine, geri bildirim render üzerindeki eksik veya zayıf özelliklere işaret edebildi. ModelRift’in tasarlandığı iş akışı buydu: bir model oluştur, tarayıcıda incele, render üzerine görsel notlar çiz ve yapay zekadan OpenSCAD’i revize etmesini iste. Uzamsal CAD görevleri için bu döngü, yalnızca metin tabanlı talimatlardan çok daha hassas.

Codex 5.5 High: Detay Yoğunluğu ve Dışa Aktarım Riskleri

Codex 5.5 High, rotunda, kubbe nervürleri, oculus, katmanlı duvar bantları, ön sundurma, sütunlar, çevredeki taban detayları ve hatta entablatürdeki M AGRIPPA L F COS TERTIVM FECIT yazısı dahil olmak üzere en yoğun modeli üretti. Bu yazıt etkileyiciydi, çünkü OpenSCAD’deki metin sadece dekoratif değil, yerleştirilmeli, dışa aktarılmalı, yönlendirilmeli ve geometrisini ezmeden okunabilecek kadar ince tutulmalıydı. Hata modu da ilginçti: Yineleme sırasında render önizlemeleri, nihai dışa aktarılan STL’den daha iyi görünüyordu. Nihai sonuçta, entablatür ve sundurma çatı alanı, ön montajın nasıl okunduğunu değiştiren sorunlu, tavan benzeri bir yüzey geliştirdi. Bu, Codex’in güçlü uzamsal akıl yürütme ve hırs gösterdiğini, ancak önizleme doğruluğunun her zaman nihai ağ doğruluğu olmadığını ortaya koyan gerçek bir dışa aktarım riski sorununu da gözler önüne serdi. Eğer yayınlanan STL tabanlı sonuç yerine en iyi PNG önizlemesini puanlasaydık, Codex çok daha yüksek sıralanırdı. 3.0/5 puanı, çoğunlukla bu talihsiz son dışa aktarım/render uyumsuzluğunun bir cezasıydı, modelin tasarım amacının değil.

Claude Sonnet: Otonom Batch’in En Temizi

Claude Sonnet, orijinal otonom partide en temiz modeli üretti. Codex gibi aynı mikro-detay seviyesini denemedi, ancak silüeti daha temizdi ve ana mimari parçalar daha doğal bir şekilde bir araya geldi. Kubbe, tambur, sundurma ve sütun düzeni, bitişik bir dizi ilkelden ziyade tek bir bina olarak okunuyordu. Oranlar da daha ölçülüydü. Daha sonraki Antigravity çalışmasından önce, bu en güçlü tam otonom sonuçtu. Hız açısından ödün verdi: Claude Code bu kıyaslamada Codex’ten yaklaşık 2-3 kat daha yavaştı ve Sonnet, sağlam kalitesine rağmen burada en düşük zaman puanını aldı. Yine de, model hala bir yaklaşım olduğu için puanı sadece 3.4/5’ti.

Cursor Composer: Hız Öncelikli, Detay Eksik

Cursor, Composer 2.5 ile en hızlı çalışmaydı, ancak sonuç en zayıftı. Doğru geniş jesti yaptı: bir rotunda, bir kubbe, bir sundurma ve sütunlar. Ancak Pantheon’u tanınabilir kılan malzeme kısıtlamasını ve mimari nüansı kaçırdı. Çıktı, bitmiş bir modelden ziyade basitleştirilmiş bir yer tutucu gibi görünüyordu. Bir ilk taslak olarak kullanışlıydı, ancak yayınlanmadan önce çok fazla yeniden çalışma gerektirecekti.

Claude Opus: Ortalama Bir Performans

Claude Opus, Cursor ve Sonnet arasında bir yere indi. Cursor’dan daha eksiksiz bir bina üretti, daha net bir sundurma ve basamaklı bir tabanla. Ancak çıktı çok tekdüze ve Sonnet’inkinden daha az ikna ediciydi. Modelin bir yapısı vardı, ancak görsel hiyerarşi hakkında yeterli yargı yoktu. Neredeyse her şey aynı renk ve ağırlıktaydı, bu yüzden detaylar gözü yönlendirmek yerine birbiriyle rekabet ediyordu. Güncellenmiş puanı 3.0/5’ti.

Temel Çıkarımlar: LLM’ler ve CAD Geometrisi için Gelecek

Bu kıyaslamadan birkaç net sonuç ortaya çıktı:

  • OpenSCAD Güvenilir Bir Hedef Dil Oldu: Sözdizimi kompakt, çıktı deterministik ve CLI önizlemeleri döngü içinde incelenebilir. LLM’lerin onu kullanmak için özel desteğe ihtiyacı olmadı.
  • Araç Kullanımı Bir Engel Değildi: Her ajan macOS ‘PATH’ üzerinden OpenSCAD’i çağırdı ve kurulum sürtüşmesi olmadan PNG önizlemeleri oluşturdu. Zor kısım geometrik yargıydı, altyapı değil.
  • Hız Kaliteyi Tahmin Etmedi: Cursor en hızlı bitti ve en zayıf sonucu verdi. Sonnet orijinal otonom çalışmalar arasında en uzun sürdü ve en temiz orijinal otonom modeli üretti. Antigravity de yavaştı, ancak Gemini 3.5 Flash High, planlama ve yineleme için zaman bulduğunda en iyi otonom sonucu verdi. ModelRift/Gemini Flash 3 çalışması daha da uzun sürdü, ancak görsel geri bildirim onu ilk otonom partinin üzerine taşıdı.
  • Önizleme ve Dışa Aktarma Aynı Değil: Codex, render döngüsü sırasında güçlü görünüyordu ancak nihai STL, sundurma çatısı etrafında geometri sorunları yaşadı. Baskıya gidecek her şey için, yalnızca önizlemeler değil, dışa aktarılan ağın ayrı bir denetim geçişine ihtiyacı var.

Bu çıktılardan hiçbiri sadık mimari modeller olarak geçmeyecekti. Ancak, iki referans görüntü ve kısa bir prompt ile her sistem, elle tek bir CAD kodu satırı yazmadan geçerli, render edilebilir OpenSCAD’e ulaştı. Araçlar arasındaki kalite boşlukları gerçek olsa da, bu temel çizgi beklenenden daha yüksekti. ModelRift’te, yinelemeli çalışma için hala Annotasyon Modu’na güveniyoruz: 3D model ekran görüntüsüne doğrudan oklar ve notlar çizip bunu yapay zekaya geri besliyorsunuz. Uzamsal geometri için, bu insan destekli adım, üst düzey modellerle bile önemli. Tamamen otonom üretim, bu tür bir görev için henüz doğru iş akışı değil.

Comments

No comments yet. Why don’t you start the discussion?

    Bir yanıt yazın

    E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir