Google, GPT-4o’ya meydan okuyan yeni yapay zeka modellerini tanıttı

40 okunma — 26 Haziran 2024 04:17

uzmanblog

Google, yıllık geliştirici konferansı I/O’da, şirketin en hafif ve en verimli yapay zeka modelleri olarak isimlendirdiği yeni modelleri duyurdu.

Gemini 1.5 Flash

Google I/O’da duyurulan birinci yeni model, Gemini serisinin en yeni üyesi Gemini 1.5 Flash oldu. Google yeni modelin konuşmaları süratli bir biçimde özetleyebildiğini, fotoğraf ve görüntülere başlık ekleyebildiğini ve büyük doküman ve tablolardan data çıkarabildiğini söyledi. Google DeepMind CEO’su Demis Hassabis, basın brifinginde “Geliştiricilerden daha süratli ve daha uygun maliyetli bir şey istediklerini duyduk” dedi.

Bu tanıtım, teknoloji şirketlerinin eser geliştirme ve kullanıma sunma süreçlerini giderek daha fazla üretken yapay zeka etrafında tekrar odakladıkları bir periyotta gerçekleşti ve yeni araçlar tüketicilere klasik web aramasına kıyasla çevrimiçi bilgiye erişmek için daha gelişmiş ve yaratıcı yollar sunduğu için Google için özel bir ehemmiyet taşıyor. Bilindiği üzere OpenAI da, Pazartesi günü yeni bir kullanıcı arayüzüyle birlikte ChatGPT’nin yeni bir yapay zeka modelini ve masaüstü sürümünü piyasaya sürdü. Şirket, GPT-4o olarak isimlendirilen yeni modelin GPT-4 Turbo’dan iki kat daha süratli ve yarı maliyetli olduğunu söylemişti. Artık Google, yeni modeliyle OpenAI’ye meydan okumayı amaçlıyor.

Gemini 1.5 Pro

Gemini’nin öbür bir yeni sürümü ise, birden fazla büyük belgeyi (toplam 1.500 sayfa) anlamlandırabilen yahut 100 e-postayı özetleyebilen geliştirilmiş Gemini 1.5 Pro oldu. Google’da lider yardımcısı ve Gemini tecrübeleri genel müdürü olan Sissie Hsiao, Gemini 1.5 Pro’nun yakında bir saatlik görüntü içeriğini yahut 30.000 satırdan fazla kod tabanını işleyebileceğini söyledi.

Hsiao, “Kira sözleşmenizdeki evcil hayvan siyasetinin detaylarını bulmak yahut birden fazla uzun araştırma makalesinin temel argümanlarını karşılaştırmak üzere ağır dokümanlar hakkında süratli bir halde karşılıklar ve içgörüler elde edebilirsiniz” dedi.

Google, 35 lisan ile Gemini 1.5 Pro’nun, bağlamı ölçen ve modelin bir defada ne kadar bilgiyi işleyebileceğini gösteren 2 milyon belirteç penceresine sahip olduğunu söylüyor. Şirket yöneticileri, yeni modelin mahallî muhakeme, planlama ve manzara anlayışını geliştirdiğinin altını çiziyor.

Alphabet CEO’su Sundar Pichai ise, basın brifinginde Gemini 1.5 Pro için “Şimdiye kadar rastgele bir temel modelin en uzun bağlam penceresini sunuyor” dedi. Aktiflikte, Gemini’den çocuklarının okulundan gelen tüm son e-postaları özetlemesini isteyen bir ebeveyn örneğini verdi.

Gemini 1.5 Pro başlangıçta Workspace Labs’de test edilebilecek. Gemini 1.5 Flash ise Google’ın makine tahsili platformu olan ve geliştiricilerin yapay zeka uygulamalarını eğitip dağıtmasına imkan tanıyan Vertex AI’da test edilebilecek.

Google Veo

Google, Veo isimli kendi üretken görüntü modeliyle ise OpenAI’nin Sora’sına cevap veriyor. Veo’nun geliştirici konferansında duyurulmasıyla Google, OpenAI’nin bu yılın başlarında Şubat ayında birinci sefer duyurduğu Sora’ya adeta meydan okuyor.

Google Deepmind’ın CEO’su Demis Hassabis, Veo’yu bugüne kadarki en yetenekli üretken görüntü modeli olarak tanımlıyor. Veo, kullanıcıların metin istemleri, manzara girdileri ve görüntü istemleri kullanarak yüksek kaliteli (1080p’ye kadar) görüntüler oluşturmasına yardımcı olacak.

Ayrıca Google, Veo için “görsel tarzlar ortasında duygusal nüansı yakalayan ve çarpıcı sinematik efektler üreten içerikler oluşturmanızı sağlar” diyor.

Sora yalnızca muhakkak geliştiricilere ve perde gerisindeki kullanıcılara sunulurken, Google kullanıcıların Veo’yu denemek için bir bekleme listesine kaydolmalarına müsaade veriyor. Veo’ya erişim, ABD’den başlayarak Google’ın yeni deneysel aracı VideoFX aracılığıyla sağlanacak.