Microsoft’tan İnsan Seslerini Taklit Edebilen Yapay Zekâ

146 okunma — 10 Ocak 2023 20:11

uzmanblog

Son vakitlerde yapay zekânın önemli oranda geliştiğini ve popülerlik kazandığını biliyoruz. Midjourney, DALL-E üzere metinlerden görsel oluşturan sistemlerden ne sorarsak soralım cevap veren ChatGPT üzere modeller tüm dünyada ses getirmişti. Artık ise Microsoft’tan yesyeni bir yapay zekâ atağı geldi.

ABD’li teknoloji devi, metinden ses oluşturabilen yapay zekâ modeli ‘VALL–E’yi tanıttı. Yapay zekâ konusunda çığır açabilecek sistemin, insan seslerini epeyce kolay bir biçimde taklit edebildiği söz edildi. Natürel bu şekil bir teknoloji birtakım tasaları de beraberinde getirdi.

Yalnızca 3 saniyelik bir örneği kullanarak sesleri taklit edebiliyor

Ars Technica’nın bildirdiğine nazaran VALL-E, yalnızca üç saniyelik bir ses örneğini kulanarak bir insanın sesini taklit edebiliyor. Hatta yapabildiklerinin bununla sonlu kalmadığı, yapay zekânın konuşmacının hissine nazaran çıkan ses tonuyla eşleşen sonuçları bile çıkarabiliyor.

Microsoft, bir lisan modeli olan VALL-E’nin Meta’nın Ekim 2022’de tanıttığı ‘EnCodec’ ismi verilen teknolojiden yararlandığını aktarıyor. Model, olağanda gördüğümüz benzeri sistemlerin bilakis metinden ve seslerden faydalanarak sonuçlar çıkarıyor. Temel olarak, bir kişinin nasıl ses çıkardığını analiz ediyor, EnCodec sayesinde bu bilgiyi farklı bileşenlere bölüyor ve eğitim bilgilerini eşleştiriyor. Bunun sonucunda da örnekteki ses taklit edilerek farklı cümleler ortaya çıkarılıyor.

Yapay zekâya ait paylaşılan bir makale de araştırmacıların VALL-E’yi, 7.000’den fazla konuşmacıdan 60.000 saatlik İngilizce lisanındaki ses kayıtları ile eğittiğini aktarıyor. Sistemin güzel bir sonuç çıkarması için de örneklerdeki sesin, eğitim bilgilerindeki bir sese yakın olması gerektiği söyleniyor.

Microsoft, VALL-E’den çıkan kimi örnekleri GitHub üzerinden yayınlandı. Örnekler incelendiğinde, yapay zekânın birtakım yerlerde robot sesiyle karşımıza çıktığı görülse de kimilerinde ise şaşırtan derecede gerçekçi olduğu görülüyor. Ayrıyeten örneklerde VALL-E’nin konuşmacının tonunu koruduğu; hatta ortama nazaran sonuç çıkardığı da görülebiliyor. Örneğin, asıl konuşmacı yankı yapan bir yerden konuşuyorsa, sistem de buna nazaran ses üretiyor.

Bu stil bir teknolojinin riskleri de yok değil

Tabii ki bu üslup bir teknoloji biraz telaş verici. Makus maksatlı şahıslar, bir insanın söylemediği bir şeyi söylemiş üzere göstermesini sağlayabilir, onların kimliğine bürünebilir ve dolandırıcılık üzere olayların artmasına neden olabilir. Son vakitlerde güzelce popülerleşen deepfake’in barındırdığı riskler üzere düşünebilirsiniz. Microsoft, risklerden ötürü kodu açık kaynaklı yapmamayı seçse de misal teknolojilerin bu riskleri beraberinde getirebileceğini söyleyebiliriz.