Sitemize üye olarak beğendiğiniz içerikleri favorilerinize ekleyebilir, kendi ürettiğiniz ya da internet üzerinde beğendiğiniz içerikleri sitemizin ziyaretçilerine içerik gönder seçeneği ile sunabilirsiniz.
Zaten bir üyeliğiniz mevcut mu ? Giriş yapın
Sitemize üye olarak beğendiğiniz içerikleri favorilerinize ekleyebilir, kendi ürettiğiniz ya da internet üzerinde beğendiğiniz içerikleri sitemizin ziyaretçilerine içerik gönder seçeneği ile sunabilirsiniz.
Üyelerimize Özel Tüm Opsiyonlardan Kayıt Olarak Faydalanabilirsiniz
Nostalji mi, tarihsel bağlantı mı? Retro oyunlara olan tutkumuzun arkasındaki sebep ne?
Meta, yeni yapay zekâ modellerini tanıttı lakin sonrasında işler biraz karıştı. Şirketin, modellerini rakiplerinden daha başarılı göstermek için test sonuçlarını biraz “kendi lehine” oynadığı tez edildi. Velhasıl, Meta’nın yapay zekâsı daha zeki üzere görünüyordu ancak bunun ardında küçük bir oyun varmış.
Şirketin Llama 4 serisinden Maverick modeli, testlerde yüksek puan almasına rağmen bu sonucun halka açık versiyonu yansıtmadığı ortaya çıktı.
Testte görünen Maverick ile halka sunulan model birebir değil
Meta, hafta sonu gerçekleştirdiği duyuruyla Llama 4 çatısı altındaki iki yeni yapay zekâ modelini tanıttı. Scout ve Maverick isimli bu modellerden bilhassa Maverick’in, GPT-4o ve Gemini 2.0 Flash üzere rakiplerini geçtiği belirtildi. LMArena isimli tanınan karşılaştırma platformunda ikinci sıraya yükselen Maverick, 1417 ELO puanıyla dikkat çekti.
Ancak kısa müddet sonra ortaya çıkan ayrıntılar, test edilen Maverick’in kamuya açık versiyondan farklı olduğunu gösterdi. Meta’nın dokümanlarında, LMArena’da kullanılan modelin “konuşma yetenekleri için özel olarak optimize edilmiş deneysel bir sürüm” olduğu belirtildi. Patform yöneticilerinin de reaksiyonunu çekti ve kuralların güncelleneceği açıklandı.
Meta, bu özel sürümün kullanımını savunurken, geliştiricilerin açık kaynaklı versiyonu kendi gereksinimlerine nazaran özelleştirebileceğini belirtti. Lakin test platformunda gösterilen performans ile halka sunulan modelin farklı olması, gerçek dünyada alınabilecek randımanın sorgulanmasına yol açtı. Şirketin modeli beklenen performansı gösteremediği için daha evvel birkaç kere ertelediği de biliniyor.
Yaşanan bu gelişme, yapay zekâ karşılaştırma testlerinin şeffaflık ve güvenilirlik açısından ehemmiyetini bir defa daha gündeme taşıdı. Tıpkı vakitte modellerin test şartları ile kullanıcıya sunulan hâli ortasında fark olması, geliştiricilerin karar alma süreçlerini de etkileyebiliyor.