Austin'deki Texas Üniversitesi'nden Meta ve bir grup araştırmacı, meta veriye gerçekçi ses teknolojisini getirmek için çalışıyor. Meta Yapay Zekâ (AI) Araştırma Direktörü Kristen Garuman'ın açıkladığı gibi, artırılmış ve sanal gerçeklik (AR ve VR) için görsellerden daha fazlası var. Ses, bir dünyayı canlı hissettirmede çok önemli bir rol oynadığı konusunda her şey hem fikir. Garuman, "Ses, içinde bulunduğu ortam tarafından şekillendirilir" açıklamasını yaptı. Bir odanın geometrisi, söz konusu odada ne olduğu ve birinin bir kaynaktan ne kadar uzakta olduğu gibi sesin nasıl davrandığını etkileyen çeşitli faktörler olduğu biliniyor.
Bunu başarmak için Meta'nın planı, hem sesi hem de videoyu tek bir yerden kaydetmek için AR gözlükleri kullanmak, ardından bir dizi üç yapay zekâ modeli kullanmak, kaydı dönüştürmek ve temizlemek. Böylece oynattığınızda evde ve önünüzde oluyormuş gibi hissettirmeyi temel amacı haline getirdi. Yapay zekalar bulunduğunuz odayı hesaba katacak ve böylece çevreye uyum sağlayarak gerçeğe en yakın deneyimi sağlayacak. Projelere bakıldığında Meta'nın AR gözlüklerine odaklandığı görülüyor. Meta'nın VR kulaklıkları planı, bir konser gibi bir ortamın görüntülerini ve seslerini çoğaltmayı içeriyor, böylece bizzat oradaymışsınız gibi hissettirecek.
İlginizi Çekebilir: Amazon Alexa, Ölmüş İnsanların Sesini Dijital Asistana Dönüştürebilir
İnsanların Dinlemek için Bir Kulaklığa İhtiyacı Olacak mı Yoksa Ses Hoparlörden mi İletilecek?
Meta'ya insanların gelişmiş sesi nasıl dinleyebileceğini sorulduğunda henüz bir cevap alınamadı. Meta'ya üzerinde çalışılan teknoloji ile ilgili farklı bir soru yöneltildiğinde ise konu, geliştiricilerin bu yapay zekâ modellerini nasıl elde edebilecekleri hakkındaydı. Bu soruyu ise üçüncü taraf geliştiricilerin teknoloji üzerinde çalışabilmesi için açık kaynak haline getirildiği açıklandı ancak Meta daha fazla ayrıntı sunmadı.
Asıl soru, Meta'nın bir AR gözlüğüne nasıl ses kaydedebileceği ve bunun yeni bir ayarı yansıtmasını ne şekilde sağlayabileceği. İlk çözüm, “Görsel Akustik Eşleştirme modeli” olan AViTAR olarak biliniyor. Bu, sesi yeni bir ortama uyacak şekilde dönüştüren yapay zeka olarak tanımlanıyor. Meta, bir oditoryumda bir çift AR gözlükle çocuğunun dans resitalini kaydeden bir anne örneğini sunarak net bir şekilde yapılabileceklerini göz önüne seriyor.
Araştırmacılardan biri, söz konusu annenin bu kaydı alıp yapay zekanın sesi değiştireceği ve evde oynatabileceğini iddia ediyor. Çevreyi tarayacak, bir odadaki engelleri dikkate alacak ve aynı gözlükle tam önünde oluyormuş gibi resital sesine sahip olacak. Araştırmacı, sesin gözlüklerden geleceğini belirtiyor.
Sesi temizlemeye yardımcı olmak için “Visually-Informed Dereverberation” teknolojisinden yardım alınıyor. Temel olarak, dikkati dağıtan yankıyı klipten kaldırıyor. Referans örnek ise bir tren istasyonunda bir keman konseri kaydetmek, onu eve götürmek ve müzikten başka bir şey duymamanız için yapay zekanın klibi temizlemesini sağlamaktır.
Görsellerle ilgili olarak Meta, yapay zekayı güdümlü sesi daha da geliştirmek için video ve diğer ipuçlarını getirmeyi planladıklarını belirtiyor. Bu teknoloji henüz geliştirme aşamasında olduğundan, Meta'nın bu yapay zekâları yakınınızdaki bir kulaklık başlığına getiripgetirmeyeceği veya ne zaman getireceği bilinmiyor.
Bu habere henüz yorum yazılmamış, haydi ilk yorumu siz bırakın!...