Hiç sesine dayanarak, hiç görmediğiniz bir kişinin zihinsel bir görüntüsünü oluşturdunuz mu? Yapay zeka (AI) artık bunu yapabilir, kişinin referans için sadece kısa bir ses klibi kullanarak bir yüzünün dijital görüntüsünü oluşturur.
Speech2Face (Konuşma 2 Yüz) olarak adlandırılan sinir ağı – insan beynine benzer bir şekilde “düşünen bir bilgisayar” – bilim adamları tarafından, 100.000’den fazla farklı insanın konuştuğunu gösteren milyonlarca eğitim videosu konusunda eğitildi. Bu veri kümesinden Speech2Face vokal ipuçları ile insan yüzündeki belirli fiziksel özellikler arasındaki ilişkileri öğrendi, araştırmacılar da yeni bir çalışmada yazdı. Yapay zeka daha sonra sese uyan fotogerçekçi bir yüz modellemek için bir ses klibi kullandı. Bulgular 23 Mayıs tarihinde çevrimiçi olarak yayınlandı. Neyse ki, Yapay zeka, (henüz) belirli bir bireyin yalnızca sesini temel alarak neye benzediğini tam olarak bilmiyor. Çalışma yazarları, sinir ağının cinsiyet, yaş ve etnik kökene dikkat çeken, birçok kişi tarafından paylaşılan özellikleri gösteren konuşmadaki bazı belirleyicileri tanıdığını belirtti. Bilim adamları, “Model, yalnızca ortalama görünüşlü yüzler üretecek” dedi. “Belirli kişilerin imajlarını üretmeyecek.”
İnsanlar için ne kadar korkutucu olsa da yapay zeka, olağandışı derecede hassas insan yüzleri üretebileceğini çoktan göstermiştir. Ama korkmaya gerek yok. Speech2Face tarafından üretilen yüzler – hepsi öne ve nötr ifadelere sahip – seslerin arkasındaki insanlarla tam olarak eşleşmedi. Ancak görüntüler, araştırmaya göre genellikle bireylerin doğru yaş aralıklarını, etnik kökenlerini ve cinsiyetlerini yakaladı. Ancak, algoritmanın yorumları mükemmel olmaktan uzaktı. Speech2Face, dil değişkenleriyle karşılaştığında “karma performans” sergilemiştir. Örneğin, Yapay zeka, Çince konuşan bir Asyalı adamın ses klibini dinlediğinde, program bir Asya yüzünün görüntüsünü oluşturuyordu. Bununla birlikte, aynı adam İngilizce’de farklı bir ses klibinde konuştuğunda, AI beyaz bir adamın yüzünü yarattığını bildirdi. Algoritma ayrıca, düşük tiz sesleri erkek yüzlerle ve yüksek tiz sesleri kadın yüzleriyle birleştiren cinsiyet yanlılığı gösterdi. Araştırmacılar, eğitim veri seti yalnızca YouTube’dan gelen eğitim videolarını temsil ettiğinden, “tüm dünya nüfusunu eşit şekilde temsil etmiyor” dedi. Slate, bu video veri setiyle ilgili bir başka kaygının, bir YouTube videosunda yer alan bir kişinin, benzerliğinin çalışmaya dahil edildiğini öğrenmeye şaşırmasıyla ortaya çıktığını belirtti. San Francisco’daki Internet güvenlik şirketi Cloudflare ile şifreleme müdürü Nick Sullivan, Speech2Face’i eğitmek için kullanılan örneklerden biri olarak (ve algoritmanın yaklaşık olarak yeniden ürettiği) beklenmedik bir şekilde yüzünü fark etti. Sullivan, araştırmaya katılmaya razı olmamış, ancak bu veri setindeki YouTube videoları, araştırmacıların ek izinler almadan izinsiz kullanmadan kullanabilecekleri kadar yaygın olarak kabul ediliyor.
KAYNAKÇA:
www.livescience.com