Sitemize üye olarak beğendiğiniz içerikleri favorilerinize ekleyebilir, kendi ürettiğiniz ya da internet üzerinde beğendiğiniz içerikleri sitemizin ziyaretçilerine içerik gönder seçeneği ile sunabilirsiniz.
Zaten bir üyeliğiniz mevcut mu ? Giriş yapın
Sitemize üye olarak beğendiğiniz içerikleri favorilerinize ekleyebilir, kendi ürettiğiniz ya da internet üzerinde beğendiğiniz içerikleri sitemizin ziyaretçilerine içerik gönder seçeneği ile sunabilirsiniz.
Üyelerimize Özel Tüm Opsiyonlardan Kayıt Olarak Faydalanabilirsiniz
Xbox Game Pass’ten Mart Ortasında Kaldırılacak Oyunlar Belli Oldu
Yapay zekâ modelleri gün geçtikçe çok daha uygun hâle geliyor. Olağan ki her teknolojide olduğu üzere yapay zekânın da piyasaya sürülmeden evvel ve sonra test edilmesi gerekiyor. Bu testlerde oyunların kullanıldığını görmüştük. Örneğin Anthropic’in Claude modeli, geçen hafta Pokemon’da denenmişti.
Şimdi ise ABD’de bulunan Kaliforniya Üniversitesi San Diego’dan Hao AI Lab isimli tertipten araştırmacılar, yepisyeni bir oyunla yapay zekâyı test etmeye başladı. Bu oyun, ikonik imal Super Mario Bros. olarak karşımıza çıktı.
Claude 3.7 en güzel performansı verdi, GPT-4o sınıfta kaldı
Testlerde Üstün Mario Bros. kullanılarak birçok farklı yapay zekâ modelinin benchmark testleri gerçekleştirildi. Bunlar ortasında OpenAI’ın ChatGPT’ye güç veren GPT-4o’su, Anthropic’in Claude 3.7 ve 3.5 modelleri ve Google’ın Gemini 1.5 Pro’su vardı.
Sonuçlarda, en yeterli performansı Claude 3.7’nin verdiği görüldü. Onu Claude 3.5 ve Gemini 1.5 Pro takip etti. GPT-4o ise zorlanarak ortalarında en berbat performansı gösteren lisan modeli oldu.
Kullanılan Üstün Mario Bros. 1985’teki özgününden biraz daha farklıydı. Testler için emülatörden yararlanıldı. Ayrıyeten GamingAgent ismi verilen bir framework ile entegre çalıştı. Bu, oyunun yapay zekâ modelleri tarafından denetim edilmesini sağladı.
Oyunda her bir modelin nasıl reaksiyonlar vereceği, karışık hareketleri öğrenmeleri, oyun stratejileri geliştirmeleri üzere şeyler test edildi. Daha da farklı olanı ise OpenAI’ın mantık yürüten o1 modelinin GPT-4o üzere mantık yürüten kategorisine sokulmayan modellerden daha makûs performans göstermesiydi.
Bu stil modeller, sorunları adım adım düşünüp çözmeleriyle genelde öteki modellere kıyasla daha uygun performans gösteriyordu lakin Muhteşem Mario Bros.’ta bu olmadı. Bunun nedeni muhtemelen mantık modellerinin hareketleri için biraz mühlete gereksinimi olması ve düşünmesi. Bu yüzden olağan lisan modelleri üzere gerçek vakitli olarak süratli aksiyon alamıyorlar.