Google DeepMind, robotlara video izleyerek öğrenmeyi öğretiyor

37 okunma — 15 Temmuz 2024 21:52

uzmanblog

Google DeepMind’ın robotlardan sorumlu grubu, robotlara görüntü izleyerek öğrenmeyi öğretiyor. Takım, Google’ın Gemini 1.5 Pro üretken yapay zeka modeliyle çalışan RT-2 robotlarının nasıl dolaşılacağını öğrenmek ve hatta varış noktasındaki istekleri yerine getirmek için görüntülerden nasıl bilgi alabildiğini gösteren yeni bir makale yayınladı.

Gemini 1.5 Pro modelinin uzun içerik penceresi sayesinde bir robotun yeni bir stajyer üzere eğitilmesi mümkün oluyor. Bu pencere, yapay zekanın bol ölçüde bilgiyi birebir anda işlemesine imkan tanıyor. Araştırmacılar, mesken yahut ofis üzere belirlenmiş bir alanın görüntü tipini çektikten sonra, robot görüntüyü izliyor ve etraf hakkında bilgi ediniyor.

Video tiplerindeki detaylar, robotun hem kelamlı hem de görsel çıktıları kullanarak öğrendiği bilgilere dayanarak vazifeleri tamamlamasını sağlıyor. Bu çalışmanın, robotların etraflarıyla insan davranışına emsal bir formda nasıl etkileşime girebileceğini göstermenin etkileyici bir yolu olduğu rahatlıkla söylenebilir.

A limited context length makes it a challenge for many AI models to recall environments. 🌐

Powered with 1.5 Pro’s 1 million token context length, our robots can use human instructions, video tours, and common sense reasoning to successfully find their way around a space. pic.twitter.com/eIQbtjHCbW

— Google DeepMind (@GoogleDeepMind) July 11, 2024

Ayrıca Google DeepMind’ın paylaştığı gösterimler, az rastlanan tesadüfler değil. Gemini takviyeli robotlar, pratik testlerde yaklaşık 850 metrekarelik bir alanda çalıştı ve 50’den fazla farklı kullanıcı talimatını yüzde 90 muvaffakiyet oranıyla muvaffakiyetle takip etti. Bu yüksek seviyedeki doğruluk, yapay zeka dayanaklı robotların konutta ev işlerinde yahut işyerinde kolay ve hatta daha karmaşık misyonlarda yardımcı olmaları için pek çok olasılığın önünü açıyor.

Gemini 1.5 Pro modelinin en dikkat alımlı taraflarından biri, çok adımlı misyonları tamamlama yeteneği olabilir. DeepMind’ın araştırması, robotların buzdolabına giderek, içindekileri görsel olarak işleyerek ve akabinde geri dönüp soruyu yanıtlayarak muhakkak bir içeceğin mevcut olup olmadığı üzere sorulara nasıl cevap vereceklerini çözebileceğini de buldu. Bütün bir hareket dizisini planlama ve gerçekleştirme, birçok robot için mevcut tek adımlı buyruk standardının ötesine geçen bir anlayış ve uygulama seviyesi sergiliyor.

Ancak bu robotun yakın vakitte satışa sunulmasını beklemeyin. Öncelikle, her bir talimatın işlenmesi 30 saniye kadar sürüyor ve bu da günlük kullanımların büyük bir çoğunluğunda aksiyonu kendinizin yapmanızın çok daha süratli olacağı manasına geliyor. Yapay zeka modeli hayli gelişmiş olsa da, gerçek dünyadaki meskenlerin ve ofislerin kaosunda bir robotun gezinmesi, denetimli bir ortamda gezinmekten çok daha güç olacaktır.

Yine de Gemini 1.5 Pro üzere yapay zeka modellerinin robot teknolojisine entegre edilmesi, bu alanda büyük bir atılımı özetliyor. Gemini yahut rakipleri üzere modellerle donatılmış robotlar sıhhat, nakliye ve hatta paklık vazifelerinin geleceğini değiştirebilir.