Yapay Zeka Gerçekleri Onaylamada Anlaşamıyor: Şaşırtıcı LLM Çelişkisi

Yapay Zeka Gerçekleri Onaylamada Neden Uzlaşamıyor? Lenz Araştırması Şaşırtıcı Sonuçları Açıkladı

Lenz Research tarafından 21 Mayıs 2026 tarihinde yayınlanan yeni bir çalışma, önde gelen büyük dil modellerinin (LLM) gerçek dünya iddialarını doğrulama yeteneklerindeki derin tutarsızlıkları gözler önüne serdi. ‘Kıyaslamaların Ötesinde: Öncü LLM’ler Arasında Gerçek Dünya Doğruluk Kontrollerinde Anlaşmazlık’ başlıklı bu araştırma, yapay zekanın güvenilirliği ve sınırlamaları hakkında önemli soruları gündeme getiriyor. Çalışmaya göre, en iyi yapay zeka modelleri, gerçek dünya doğruluk kontrollerinin şaşırtıcı bir oranı olan %67’sinde ortak bir cevaba varamıyor.

Temel Bulgular: LLM’ler Neden Uzlaşamıyor?

Lenz Research, 1.000 adet güncel, gerçek kullanıcı talebini beş önde gelen LLM’ye (GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro + Search, Sonar Pro) sundu ve her birinden bir karar istedi. Bu iddialar, halka açık cevap anahtarları olan kıyaslama maddeleri değil, gerçek kullanıcıların bir doğruluk kontrol platformuna gönderdiği taleplerdi. Dört kategorilik (Doğru / Çoğunlukla Doğru / Yanıltıcı / Yanlış) bu değerlendirme sisteminde, modeller arasındaki herhangi bir anlaşmazlık, en az bir modelin kararının tutarsız olduğu anlamına geliyor. İşte çalışmanın anahtar bulguları:

İddiaların %67’si (1.000 üzerinden 672), en az bir önde gelen modelin panel çoğunluğundan ayrıldığı veya hiç çoğunluk oluşmadığı durumları içeriyor.
İddiaların %34’ü (1.000 üzerinden 343), en çok anlaşmazlık yaşayan iki önde gelen modelin verdikleri kararlar arasında 2 veya daha fazla kategori farkı olduğunu gösteriyor. Bu, sadece bir kalibrasyon kayması değil, cevaba ilişkin esaslı bir anlaşmazlık.
5 değerlendirici ve 1.000 madde genelinde Krippendorff’un α (sırasal) değeri 0.639 olarak belirlendi. Bu, önemsiz olmayan ancak sınırlı bir anlaşmayı işaret ediyor.
Panel, kesin kararlarda (Doğru/Yanlış) uzlaşırken, değerlendirme çizelgesinin ortasında (Çoğunlukla Doğru/Yanıltıcı) çatallanıyor.
Bazı modeller verdikleri kararları Doğru/Yanlış kutuplarında yoğunlaştırırken, diğerleri orta iki kategoride daha geniş bir dağılım sergiliyor.

Ne Kadar Sık Anlaşmazlık Yaşanıyor?

İddiaların %67’sinde, önde gelen panel uzlaşamıyor; en az bir model çoğunluk kararından ayrılıyor veya kesin bir çoğunluk oluşmuyor. Panelden 5’i de aynı fikirde olan (oybirliği) iddiaların oranı yalnızca %33 iken, 2 modelin ayrıldığı veya çoğunluğun oluşmadığı durumlar %45’i buluyor.

Önemli vs. Nüans Farklılıkları

İddiaların %34’ünde, en az iki önde gelen model, 4 kategorilik değerlendirme çizelgesinde 2 veya daha fazla kategori farkla ayrışıyor. Bu, sadece bir güven kalibrasyonu kayması (örn. ‘Doğru’ ile ‘Çoğunlukla Doğru’ arasındaki fark) değil, cevaba ilişkin önemli bir anlaşmazlıktır (örn. ‘Doğru’ ile ‘Yanlış’ arasındaki fark).

Derinlemesine İnceleme: Modellerin Davranışı

Modelden Modele Anlaşma Oranları

Çalışma, her bir önde gelen model çiftinin corpus genelindeki tüm iddialarda aynı karar etiketini ne sıklıkta seçtiğini de inceledi. En yüksek eş anlaşması, temel model paylaştıkları için şaşırtıcı olmayan bir şekilde, Gemini 3 Pro ile Gemini 3 Pro + Search arasında %75 olarak gerçekleşti. En düşük anlaşma oranı ise Claude Opus 4.7 ile Gemini 3 Pro, Claude Opus 4.7 ile Gemini 3 Pro + Search ve Gemini 3 Pro ile Sonar Pro arasında %53 ile üç çiftte kaydedildi.

Her Modelin Kendi Davranışı

Modellerin verdikleri kararların dağılımı, model düzeyindeki karar öncelikleri ile belirli iddiaların etkileşimini yansıtıyor. Bazı modeller kararlarını ‘Doğru’ ve ‘Yanlış’ kutuplarında yoğunlaştırırken, diğerleri ‘Çoğunlukla Doğru’ ve ‘Yanıltıcı’ gibi orta kategorilere daha geniş bir şekilde yayılıyor. Örneğin, Gemini 3 Pro iddiaların %54’ünü ‘Doğru’ ve %40’ını ‘Yanlış’ olarak sınıflandırırken, Claude Opus 4.7 daha dengeli bir dağılım sergileyerek ‘Doğru’ %38, ‘Çoğunlukla Doğru’ %26, ‘Yanıltıcı’ %19 ve ‘Yanlış’ %17 oranlarında kararlar verdi.

Alanlara Göre Anlaşmazlık ve Verdikt Güvenilirliği

Alan Bazında LLM Anlaşmazlığı

Anlaşmazlık oranları alanlara göre farklılık gösteriyor. Örneğin, Finans, Genel ve Sağlık gibi alanlarda anlaşmazlık oranları %67 ila %71 arasında değişirken, Tarih alanında bu oran %53’e düşüyor. Hukuk ve Bilim gibi alanlarda da önemli anlaşmazlıklar (%77 ve %68) gözlemlendi. Özellikle Hukuk ve Bilim alanları, sırasıyla %40 ve %21 ile ‘çoğunluk yok’ durumlarının en yüksek olduğu alanlar arasında yer aldı.

Verdiktlere Göre Panel Uyumunun İncelenmesi

Panelin ‘Çoğunlukla Doğru’ ve ‘Yanıltıcı’ gibi orta kategori kararlarına ulaştığında nadiren uzlaştığı ortaya çıktı. Bu kategorilerdeki kararların oybirliği oranı en fazla %5 iken, ‘Doğru’ ve ‘Yanlış’ kararlarında bu oran %43-47 arasında seyrediyor. Bu durum, modellerin nüanslı veya gri alanlardaki iddiaları değerlendirmede daha fazla zorlandığını gösteriyor.

Araştırma Metodolojisi ve Sınırlamalar

Veri Kaynağı: Gerçek Dünya İddiaları

Çalışma, Lenz adlı bir doğruluk kontrol platformuna kullanıcılar tarafından sunulan 1.000 gerçek dünya iddiası üzerine kuruldu. Bu iddialar, küratörlü kıyaslama maddeleri yerine organik, gerçek dünya doğruluk kontrolü taleplerini temsil ediyor. Modeller, kullanıcıların ham metinleri yerine, Lenz’in önyargılardan arındırılmış, nötr ‘atomik iddia’ formatında değerlendirme yaptı. Araştırmada Lenz’in kendi verdikleri kullanılmadı, sadece modeller arası anlaşmazlık ölçüldü.

Model Seçimi ve Yaklaşım

Beş önde gelen model seçildi: GPT-5.4, Claude Opus 4.7, Gemini 3 Pro (parametrik) ve Gemini 3 Pro + Search, Sonar Pro (erişim-güçlendirilmiş). Modellerden, ‘Doğru’, ‘Çoğunlukla Doğru’, ‘Yanıltıcı’ veya ‘Yanlış’ olmak üzere dört kategoriye ayrılan verdiklerden birini seçmeleri istendi. Bir ‘Çekimser’ seçeneği sunulmadı, bu da karşılaştırmaların simetrik kalmasını sağladı.

Sınırlamalar

Bu çalışma, modellerin hata oranı için bir taban belirlese de, belirli bir iddiada hangi modelin yanlış olduğunu iddia etmiyor. ‘Kategori mesafesi’nin sırasallığı basitleştirilmiştir ve bazı anlaşmazlıklar temel görev zorluğundan kaynaklanabilir. Çalışma, belirli bir tarihte belirli model versiyonlarıyla dondurulmuş bir anlık görüntüdür ve gelecekteki model güncellemeleri veya farklı prompt’larla sonuçlar değişebilir. Retrieval-enabled modellerin kaynakları nasıl kullandığı kontrol edilmemiştir.

Özetle, Lenz Research’ün bu çığır açan çalışması, en güçlü yapay zeka modellerinin bile gerçek dünya doğruluk kontrollerinde önemli ölçüde uzlaşmadığını gösteriyor. Bu bulgular, yapay zeka sistemlerinin karar verme süreçlerini daha derinlemesine anlamamız ve potansiyel sınırlamalarını aşmamız için kritik bir yol haritası sunuyor.