OpenAI, Yeni Ses Modellerini Tanıttı: Artık Arka Plan Gürültüsü Vız Gelir, Tırıs Gider!

17 okunma — 20 Mart 2025 23:18

uzmanblog

OpenAI, sesli konuşma ve metinden sese çeviri konusunda yeni modellerini duyurdu. Artık API üzerinden erişilebilen bu modeller, konuşmaları daha doğal hale getirirken metinleri de daha yanlışsız halde sese dönüştürebiliyor. Özcesi yapay zekâ artık yalnızca konuşmakla kalmıyor, nasıl konuşacağını da çok daha güzel kavrıyor!

OpenAI, sesli konuşma ve metinden sese çeviri konusunda yepyeni modellerini tanıttı. Pekala, bu modeller neler sunuyor? İşte tüm detaylar!

OpenAI yeni modellerini duyurdu

Yeni modeller ortasında yer alan “gpt-4o-mini-tts”, metinden sese çeviri yaparak daha doğal ve gerçekçi konuşmalar oluşturabiliyor. OpenAI, geliştiricilerin bu modelin konuşma biçimini belirleyerek farklı seslendirme seçenekleri oluşturabileceğini paylaştı. Örneğin, modelin bir bilim insanı üzere konuşması yahut sakin bir rehber tonunda seslendirme yapması sağlanabiliyor. Şirket, modelin çeşitli ses tonlarını desteklediğini ve bu özelliğin kullanıcı tecrübesine daha fazla esneklik kazandırdığını belirtti.

Konuşmadan metne çeviri yapan “gpt-4o-transcribe” ve “gpt-4o-mini-transcribe” modellerinin, OpenAI’nin eski Whisper modelinin yerini aldığı açıklandı. Şirket, yeni modellerin daha geniş kapsamlı ve kaliteli ses datalarıyla eğitildiğini paylaştı. Bu sayede farklı aksanları ve konuşma biçimlerini daha uygun algılayabildiğini belirten OpenAI, modellerin ağır art plan gürültüsüne sahip ortamlarda bile konuşmaları daha gerçek biçimde çözümlenebildiğini söz etti.

Ancak OpenAI, yeni transkripsiyon modellerini açık kaynak olarak sunmayacağını duyurdu. Daha evvel Whisper modelini açık kaynak olarak paylaşan şirket, yeni modellerin çok daha büyük olduğunu ve lokal aygıtlarda çalıştırılmasının sıkıntı olacağını söz etti. OpenAI, ilerleyen periyotta aygıtlara özel daha hafif versiyonların açık kaynak olarak yayımlanmasının değerlendirilebileceğini belirtti.