Ücretli AI modellerinden şok eden performans: Parayı ver, daha çok hata al!

20 okunma — 17 Mart 2025 19:42

uzmanblog

Columbia Journalism Review’un Tow Center for Digital Journalism’i tarafından yapılan kapsamlı bir araştırma, üretken yapay zeka modellerinin haber arama işinde önemli doğruluk problemleri yaşadığını ortaya koydu. Araştırmada, canlı arama fonksiyonuna sahip sekiz farklı AI dayanaklı arama aracı incelendi ve bu araçların haber kaynaklarıyla ilgili verilen istemlerin %60’ından fazlasına yanlış karşılıklar ürettiği belirlendi.

Araştırmacılar, şu anda Amerikalıların dörtte birinden fazlasının AI modellerini klasik arama motorlarına alternatif olarak kullandığını ve bu durumun yanlışların tesirini daha da önemli hale getirdiğini vurguladılar.

Araştırmada doğruluk oranlarındaki farklılıklar dikkat çekti. Örneğin, Perplexity platformu verilen istemlerin %37’sinde yanlış bilgi sunarken, ChatGPT Search bu oranı %67’ye taşıdı. Grok 3 ise %94 üzere çarpıcı bir yanılgı oranıyla en düşük performansı sergiledi.

Testler nasıl gerçekleştirildi?

Araştırmacılar, modelleri gerçek haber makaleleriyle sınamak için çeşitli istemler verdiler. Bu istemlerde, haber makalesinin başlığını, yepyeni yayımcısını, yayım tarihini ve URL’sini hakikat bir formda tespit etmeleri istendi. Tüm testlerde, sekiz farklı arama aracıyla toplamda 1.600’den fazla istem kullanıldı. Enteresan bir formda, modellerin muteber bilgiye sahip olmadıkları durumlarda cevap vermeyi reddetmek yerine, gerçekçi görünümlü fakat yanılgılı ya da varsayıma dayalı cevaplar verdikleri gözlemlendi. Bu durum, incelenen tüm modellerde ortak bir sorun olarak öne çıktı.

Ücretli modeller, fiyatsız sürümlerden daha mı makus?

Araştırma, fiyatlı hizmetlerin bazen beklenenin bilakis fiyatsız sürümlerden daha berbat performans sergileyebildiğini gösterdi. Örneğin, aylık 20 dolarlık Perplexity Pro ve 40 dolarlık Grok 3 Premium hizmeti, fiyatsız sürümlerine kıyasla daha sık ve daha kendinden emin yanılgılar üretti. Bu modeller, daha fazla sayıda isteme cevap verme eğiliminde olsalar da, cevaplarını reddetmemeleri yanılgı oranlarını yükseltti.

Araştırmacılar, kimi AI araçlarının yetkisiz erişimi önlemeye yönelik ayarları dikkate almadığını da fark ettiler. Örneğin, Perplexity’nin fiyatsız sürümü, National Geographic’in açık bir halde müsaade vermemesine karşın, fiyatlı içeriklerden 10 adedini hakikat bir biçimde tanımlamayı başardı. Ayrıyeten sıkça karşılaşılan problemler ortasında, alıntı yapılan yazılarda özgün kaynağı göstermek yerine Yahoo News üzere diğer sitelere temas verme ve kusurlu ya da geçersiz ilişkiler sağlama yer aldı.