Yapay Zeka Programlama Ajanları: Dehası mı, Yoksa En Pahalı Hata mı?

Yazılım geliştirmeye yapay zeka (AI) ajanlarının entegrasyonu, alanın tarihindeki en maliyetli hatalardan biri olmaya aday. Uzmanlara göre, ajanlar programlama yapamıyor ve bu gerçeği anlamak her geçen gün daha da zorlaşıyor. Bu modeller, programlama dağılımını taklit etmek üzere tasarlanmış son derece gelişmiş istatistiksel modellerdir. Ürettikleri çıktılar hatalı ancak bu hataları tespit etmek giderek güçleşiyor; ki bu, doğruluğu artan bir istatistiksel modelden beklenen bir durum.

İlk Reddiş ve Kişisel Deneyimler

Başlangıçta bu fikre karşı çıkılmış, hatta savunma mekanizması olarak algılanmış. Kendi değerini programlama yetenekleriyle tanımlayan birinin, bu yeteneklerin potansiyel kaybı karşısında savunmacı davranması makul görülebilir. AI modellerinin, bir insanın hayatını adasa bile çözemeyeceği matematik problemlerini çözebildiği aşikar. Peki neden programlama yapamıyorlar? Belki de sorunun kaynağı, AI’ın dehasını tanımak için yeterince iyi bir programcı olmamaktı.

Son altı ay boyunca bu durumu test etmek için yoğun çaba harcandı. Tinygrad’in bazı bölümleri ve bir USB <-> PCIe çipinin tersine mühendisliği AI ajanları kullanılarak yapıldı. Ancak her seferinde, bu işlerin manuel olarak daha iyi ve daha hızlı yapılabileceği şüphesi oluştu. Ajan, ilerlemenin büyük bir kısmını öne çekiyor, ardından işin son rötuşlarını ummak için bir ‘slot makinesi kolu’ çekmeye bırakıyor ve maalesef bu rötuşlar asla tamamlanamıyor.

“Yanlış kullanıyorsun” eleştirilerine gelince, farklı modeller, farklı araçlar ve farklı promptlar denendi. Sorun kullanım şeklinde değil. Bu eleştiriyi yapanlar muhtemelen slot makineleri hakkında da benzer şeyler söylerlerdi: “Kiraz geldiğinde 5 hat oynamalısın, bu yüzden kazanamıyorsun!”

Yapay Zekanın Kullanışlılığı ve Sınırları

Yapay zekanın faydalı olduğu inkar edilemez. Çoğu arama için Google’dan daha iyi bir alternatif sunuyor ve hızlı bir prototip gerektiğinde, detaylara önem verilmediğinde inanılmaz derecede hızlı olabiliyor. Ancak bir yazılım mühendisi mi? Çalışılan hiçbir şirketteki beklenti çıtasına yaklaşamıyor. Asıl önemli olan, onu ne zaman kullanacağını ve ne zaman kullanmayacağını bilmek.

Statü Kaybı Korkusu ve Gerçeklik

Kişisel değerini koruma düşüncesi yeniden değerlendirildi. AFL (American Fuzzy Lop) adlı fuzzing aracı, büyük dil modellerinden (LLM’ler) daha fazla hata buldu ve kimse bu konuda statü kaybı korkusu yaşamadı. Satranç ve Go oyunları her zamankinden daha popüler. Hatta, kodları temizleyebilecek robot ‘yardımcılardan’ oluşan ordulara sahip olma fikri heyecan verici. Statü kaybı korkusu yerine, bunun aslında ajanları satmak için bir tür psikolojik operasyon olabileceği düşünülüyor. Korku, büyük şirketleri harekete geçirebilen tek yollardan biri. Ancak bu korkuyla büyük bir hata yaptıklarına inanılıyor.

Büyük Organizasyonlar Üzerindeki Etkisi

Yapay zeka ajanları, yüksek performanslı bireyler veya küçük organizasyonlardan ziyade, büyük organizasyonlara daha fazla zarar verecek. Son altı ayda arkadaşların ve iş arkadaşlarının bu araçları nasıl benimsediği gözlemlendi. Yüksek performanslı tüm insanlarda bulunan bir özellik, hatayı düzeltebilme yeteneğidir ve çoğu, ‘çorbanın çorba olduğunu’ görmekte iyiydi. Ajanları ne zaman kullanacaklarını, ne zaman güveneceklerini, nasıl kullanacaklarını vb. keşfetmek ve dış döngüleri ayarlamak biraz zaman alsa da, belirli sınırlı alanlar dışında her satırı dikkatlice okumayan ve anlamayan kimseye rastlanmadı.

Bu durumu büyük bir organizasyonla karşılaştırın: çok daha yavaş geri bildirim döngüleri, çok daha az uyum. Düşük performanslı çalışanlar bu öz kontrol mekanizmasına sahip olmayacak. Onlar, ajanlarla 10 kat daha fazla çıktı üretenler olacak. Sizce o organizasyonun ortalama çıktısına ne oluyor? Dünya genelindeki ortalama çıktıya ne oluyor?

Ajanlar, her zamankinden daha fazla kod, daha fazla uygulama ve daha fazla özellik üretecek. Bu, kovalarca ‘çorba’ için altın çağ, ancak nitelikli ‘cevherler’ için bir karanlık çağ olacak. Apple’ın tüm mühendislerine yapay zekayı zorladığı duyumları var. İnsanlar soyut düşündüğünde, AI’ın tüm bunları yapacağını düşünürler, ancak somut bir örneğe odaklanalım: macOS’un önümüzdeki iki yıl içinde daha iyi mi yoksa daha kötü mü olacağını düşünüyorsunuz?

Sürecin Önemi: İnsan ve AI Üretimi Arasındaki Fark

İnsanlar bir ürün gördüklerinde, onu oluşturmak için kullanılan süreç hakkında varsayımlarda bulunurlar. Düşünmeden bile, yaratıcının temelde insani bir zihin yapısına sahip olduğunu varsayarlar. Bu varsayım artık doğru değil. Eskiden mümkün olmayan şekillerde hatalar meydana gelebilir ve sözdizimi ve dilbilgisi gibi temel kalite göstergeleri artık işe yaramaz. AI tarafından üretilen ürünler, insan ürünleriyle aynı süreçten geçmez ve bu fark, istatistiksel olarak son derece ince olsa da, ürünle insani yollarla etkileşim kurmaya ve onu geliştirmeye çalıştığınızda kendini belli eder.

Tüm fikirlerini tamamen onaylamamakla birlikte, LLM’ler konusunda artık LeCun/Marcus kampında yer alınıyor. Bu tür modellerin asla programlama yapabileceğine inanılmıyor; sürecin önemli olduğu düşünülüyor. Derin öğrenmenin hala çözüm olduğuna, ancak gerçek programlama ajanlarının dünya modellerine ihtiyaç duyacağına, başarısız testi yorumlayıp tüm testlerin geçtiğini söyleyen bazı RLVR saçmalıklarına değil, inanılıyor. Bu dönemin gerçek hikayesi, AI psikozunda kendine zarar vermekten kimin kaçınmayı başaracağı olacak.

Yapay Zeka Programlama Ajanları: Dehası mı, Yoksa En Pahalı Hata mı?