OpenAI’ın Yeni Yapay Zekâ Modelleri, Eski Modellere Kıyasla Daha Fazla ‘Halüsinasyon’ Görüyor (Kullanırken İki Kez Kontrol Edin) – UzmanBlog
Windows 11’in Ekran Alıntısı Aracı’na yeni bir yetenek daha

Sıradaki içerik:

Windows 11’in Ekran Alıntısı Aracı’na yeni bir yetenek daha

sv

OpenAI’ın Yeni Yapay Zekâ Modelleri, Eski Modellere Kıyasla Daha Fazla ‘Halüsinasyon’ Görüyor (Kullanırken İki Kez Kontrol Edin)

11 okunma — 19 Nisan 2025 19:54

OpenAI’ın kısa mühlet evvel tanıttığı yeni yapay zekâ modelleri o3 ve o4-mini her ne kadar özellikleri ile beğenilmiş olsalar da eski modellerdeki can sıkıcı bir sorunla geldi.

Ortaya çıkan ayrıntılara nazaran bu iki yeni modelin gerçek dışı bilgiler üretme eğilimi, evvelki modellere kıyasla artmış durumda. OpenAI’ın kendi testlerine nazaran bu yeni modeller, hem eski “akıl yürütme” modelleri olan o1, o1-mini ve o3-mini’den hem de GPT-4o üzere daha klâsik modellerden daha fazla ‘halüsinasyon’ görüyor.

Daha da dikkat cazibeli olan ise bu artışın sebebinin şimdi tam olarak anlaşılamamış olması. OpenAI yayınladığı teknik raporda bu sorunun tahlili için daha fazla araştırmaya muhtaçlık duyduklarını kabul etmiş durumda.

Teknik datalar neler söylüyor?

OpenAI’ın şirket içi testlerine nazaran o3 modeli, beşerlerle ilgili bilgileri pahalandıran PersonQA testinde soruların %33’ünde halüsinasyon gördü. Bu oran, o1 ve o3-mini’nin sırasıyla %16 ve %14,8 olan halüsinasyon oranlarının neredeyse iki katı. O4-mini ise bu alanda %48 ile daha da makûs bir performans sergiledi.

Üçüncü parti testlerde de misal sonuçlar ortaya çıktı. Bağımsız araştırma laboratuvarı Transluce, o3 modelinin yanıt verirken büsbütün gerçek dışı süreç adımları uydurma eğiliminde olduğunu ortaya koydu.

Transluce’un kurucularından ve eski OpenAI çalışanı Neil Chowdhury’ye nazaran bu durumun sebebi modellerin eğitiminde kullanılan prosedürler olabilir fakat net bir sebebe dayandırmak şu basamakta güç.

Gücüne kuşku yok, pekala ya inancına?

o3 modeli her ne kadar birtakım vazifelerde, bilhassa de kodlama ve matematikte başarılı sonuçlar verse de sık sık yanılgılı sonuçlar üretmesi ya da gerçekte olmayan kaynaklar sunması üzere önemli problemlere sahip.

Öte yandan mevcut hâliyle GPT-4o, OpenAI’ın SimpleQA testinde %90 doğruluk oranı yakalayarak hâlâ güçlü bir alternatif.

ChatGPT ile ilgili öbür içeriklerimiz:

Şimdilik OpenAI cephesinden hususa dair açıklama ve iyileştirmeler gelmesini beklemekten öteki yapabileceğimiz bir şey yok fakat iki yeni model o3 ve o4-mini’yi kullanıyorsanız, çıktılarınıza körü körüne inanmamanızı ve dikkatle denetim etmenizi tavsiye ediyoruz.

  • Site İçi Yorumlar


En az 10 karakter gerekli