Yapay Zekâ Modelleri, Super Mario Bros.’ta Test Edilmeye Başladı: En İyi Performansı Hangi Yapay Zekâ Verdi?

25 okunma — 04 Mart 2025 18:00

uzmanblog

Yapay zekâ modelleri gün geçtikçe çok daha uygun hâle geliyor. Olağan ki her teknolojide olduğu üzere yapay zekânın da piyasaya sürülmeden evvel ve sonra test edilmesi gerekiyor. Bu testlerde oyunların kullanıldığını görmüştük. Örneğin Anthropic’in Claude modeli, geçen hafta Pokemon’da denenmişti.

Şimdi ise ABD’de bulunan Kaliforniya Üniversitesi San Diego’dan Hao AI Lab isimli tertipten araştırmacılar, yepisyeni bir oyunla yapay zekâyı test etmeye başladı. Bu oyun, ikonik imal Super Mario Bros. olarak karşımıza çıktı.

Claude 3.7 en güzel performansı verdi, GPT-4o sınıfta kaldı

Testlerde Üstün Mario Bros. kullanılarak birçok farklı yapay zekâ modelinin benchmark testleri gerçekleştirildi. Bunlar ortasında OpenAI’ın ChatGPT’ye güç veren GPT-4o’su, Anthropic’in Claude 3.7 ve 3.5 modelleri ve Google’ın Gemini 1.5 Pro’su vardı.

Sonuçlarda, en yeterli performansı Claude 3.7’nin verdiği görüldü. Onu Claude 3.5 ve Gemini 1.5 Pro takip etti. GPT-4o ise zorlanarak ortalarında en berbat performansı gösteren lisan modeli oldu.

Kullanılan Üstün Mario Bros. 1985’teki özgününden biraz daha farklıydı. Testler için emülatörden yararlanıldı. Ayrıyeten GamingAgent ismi verilen bir framework ile entegre çalıştı. Bu, oyunun yapay zekâ modelleri tarafından denetim edilmesini sağladı.

Oyunda her bir modelin nasıl reaksiyonlar vereceği, karışık hareketleri öğrenmeleri, oyun stratejileri geliştirmeleri üzere şeyler test edildi. Daha da farklı olanı ise OpenAI’ın mantık yürüten o1 modelinin GPT-4o üzere mantık yürüten kategorisine sokulmayan modellerden daha makûs performans göstermesiydi.

Bu stil modeller, sorunları adım adım düşünüp çözmeleriyle genelde öteki modellere kıyasla daha uygun performans gösteriyordu lakin Muhteşem Mario Bros.’ta bu olmadı. Bunun nedeni muhtemelen mantık modellerinin hareketleri için biraz mühlete gereksinimi olması ve düşünmesi. Bu yüzden olağan lisan modelleri üzere gerçek vakitli olarak süratli aksiyon alamıyorlar.