Google DeepMind Yapay Zeka ile Üretilen Filmleri Hızlandırıyor
Yapay zeka ile üretilen filmler sandığınızdan daha kısa sürede karşınızda olacak – ve Google DeepMind’ın yeni aracı bunu kanıtlıyor
OpenAI’nin Sora’sı, Luma AI’nin Dream Machine’i ve Runway Gen-3 Alpha gibi yapay zeka video jeneratörleri son zamanlarda gündemde, ancak yeni bir Google DeepMind aracı hepsinin paylaştığı bir zayıflığı düzeltebilir – eşlik eden ses eksikliği.
Yeni bir Google DeepMind gönderisi, yapay zeka tarafından üretilen videolar için otomatik olarak film müzikleri ve ses manzaraları oluşturmak üzere pikseller ve metin istemlerinin bir kombinasyonunu kullanan yeni bir videodan sese (veya ‘V2A’) aracını ortaya çıkardı. Kısacası, tam otomatik film sahnelerinin oluşturulmasına yönelik bir başka büyük adım.
Aşağıdaki videolarda görebileceğiniz gibi, bu V2A teknolojisi, atmosferik bir müzik, zamanında ses efektleri ve hatta Google DeepMind’ın “bir videonun karakterlerine ve tonuna uyduğunu” söylediği diyaloglar oluşturmak için AI video oluşturucularıyla (Google’ın Veo’su dahil) birleşebilir.
İçerik oluşturucular sadece tek bir ses seçeneğiyle de sınırlı kalmıyor: DeepMind’ın yeni V2A aracı, herhangi bir sahne için “herhangi bir video girdisi için sınırsız sayıda film müziği” oluşturabiliyor, bu da birkaç basit metin komutuyla onu istediğiniz sonuca doğru yönlendirebileceğiniz anlamına geliyor.
Google, aracının tamamen piksellere dayalı ses üretme yeteneği sayesinde rakip teknolojilerden ayrıldığını söylüyor – görünüşe göre ona yönlendirici bir metin istemi vermek tamamen isteğe bağlı. Ancak DeepMind aynı zamanda kötüye kullanım ve derin sahtekarlıklar için büyük potansiyelin de farkında, bu yüzden bu V2A aracı şimdilik bir araştırma projesi olarak sınırlandırılıyor.
DeepMind, “daha geniş kitlelerin erişimine açmayı düşünmeden önce, V2A teknolojimiz titiz güvenlik değerlendirmeleri ve testlerinden geçecek” diyor. Kesinlikle titiz olunması gerekecek, çünkü on kısa video örneği, teknolojinin hem iyi hem de kötü yönde patlama potansiyeline sahip olduğunu gösteriyor.
Amatör film yapımı ve animasyon potansiyeli, aşağıdaki ‘korku’ klibinde ve bir çizgi film bebek dinozorunda görüldüğü gibi çok büyük. Elektronik müzik eşliğinde bir şehrin içinden geçen arabaları gösteren Blade Runner benzeri bir sahne (aşağıda) de bilimkurgu filmlerinin bütçelerini nasıl büyük ölçüde azaltabileceğini gösteriyor.
Endişeli üreticiler en azından ‘Claymation ailesi’ videosunda gösterilen bariz diyalog sınırlamalarından biraz rahatlayacaktır. Ancak geçen yıl bize bir şey öğrettiyse, o da DeepMind’ın V2A teknolojisinin bundan sonra büyük ölçüde gelişeceğidir.
Yapay zeka tarafından üretilen videoların yapay zeka tarafından yaratılan film müzikleri ve ses efektleriyle birleşimi pek çok açıdan oyunun kurallarını değiştiriyor ve zaten çok sıcak olan silahlanma yarışına yeni bir boyut kazandırıyor.
OpenAI, bu yılın sonlarında piyasaya sürülecek olan Sora video oluşturucusuna ses eklemeyi planladığını zaten söylemişti. Ancak DeepMind’ın yeni V2A aracı, teknolojinin zaten ileri bir aşamada olduğunu ve sonsuz yönlendirmeye ihtiyaç duymak yerine yalnızca videolara dayalı olarak ses oluşturabileceğini gösteriyor.
DeepMind’ın aracı, videonun piksellerinden alınan bilgileri ve kullanıcının metin komutlarını birleştiren bir difüzyon modeli kullanarak çalışıyor ve daha sonra bir ses dalga formuna çözülen sıkıştırılmış sesi çıkarıyor. Görünüşe göre video, ses ve yapay zeka tarafından oluşturulan ek açıklamaların bir kombinasyonu üzerinde eğitilmiş.
Bu V2A aracının tam olarak hangi içerik üzerinde eğitildiği belli değil, ancak Google’ın dünyanın en büyük video paylaşım platformu olan YouTube’a sahip olması nedeniyle potansiyel olarak büyük bir avantaja sahip olduğu açık. Ne YouTube ne de hizmet koşulları, videolarının yapay zekayı eğitmek için nasıl kullanılabileceği konusunda tamamen net değil, ancak YouTube’un CEO’su Neal Mohan geçtiğimiz günlerde Bloomberg’e yaptığı açıklamada, bazı içerik oluşturucuların içeriklerinin yapay zeka modellerini eğitmek için kullanılmasına izin veren sözleşmeleri olduğunu söyledi.
Açıkçası, teknolojinin diyalog konusunda hala bazı sınırlamaları var ve Hollywood’a hazır bitmiş bir makale üretmekten hala çok uzak. Ancak şimdiden storyboard ve amatör film yapımcıları için potansiyel olarak güçlü bir araç ve OpenAI gibileriyle sıcak rekabet, bundan sonra hızla gelişeceği anlamına geliyor.