Alibaba dan AI Video Buat Sora Bernyanyi Merdu



TL;DR
  • Alibaba rilis EMO, generator video AI.
  • EMO bisa bikin wajah bergerak sesuai audio.
  • EMO hasilkan ekspresi emosi yang realistis.
Alibaba dan AI Video Buat Sora Bernyanyi Merdu - credit to: mashable - pibitek.biz - Korea

credit to: mashable


336-280

pibitek.biz - Alibaba baru saja merilis generator video AI yang mengungguli Sora dengan membuat karakter Sora menyanyikan lagu Dua Lipa. Pada hari Selasa, Institute for Intelligent Computing yang merupakan bagian dari Alibaba, merilis sebuah paper yang membahas tentang generator video AI baru yang mampu mengubah gambar wajah menjadi aktor dan penyanyi yang cukup meyakinkan. Sistem ini diberi nama EMO, yang merupakan singkatan dari "Emotive Portrait Alive".

EMO adalah gambaran dari masa depan di mana sistem seperti Sora dapat menciptakan dunia video dengan karakter-karakter yang dapat berbicara atau bahkan menyanyi. Alibaba mempublikasikan video demo EMO di GitHub untuk memamerkan kemampuan framework video baru ini. Salah satu video demo menunjukkan karakter Sora, yang terkenal karena berjalan di Tokyo yang dihasilkan oleh AI setelah hujan, menyanyikan lagu "Don't Start Now" oleh Dua Lipa dengan sangat apik.

Demo-demo ini juga menunjukkan bagaimana EMO dapat membuat Audrey Hepburn berbicara dengan suara yang diambil dari video viral Lili Reinhart yang sedang membicarakan betapa ia suka menangis. Di dalam video tersebut, kepala Audrey Hepburn tetap tegak seperti seorang prajurit, namun seluruh wajahnya, bukan hanya mulutnya, tampak mengumumkan emosi sesuai dengan kata-kata dalam audio. Berbeda dengan versi Hepburn yang tidak wajar ini, Lili Reinhart dalam video aslinya banyak bergerakkan kepala dan mengekspresikan dirinya dengan cara yang berbeda, sehingga EMO tidak terlihat seperti versi AI face-swapping yang pernah viral pada pertengahan 2010-an dan menyebabkan munculnya deepfake pada tahun 2017.

Dalam beberapa tahun terakhir, muncul aplikasi-aplikasi yang dirancang untuk menghasilkan animasi wajah dari audio, namun belum ada yang begitu menginspirasi. Misalnya, paket software NVIDIA Omniverse memiliki aplikasi dengan framework audio-to-facial-animation bernama "Audio2Face" yang mengandalkan animasi 3D untuk menghasilkan outputnya, bukan sekadar video fotorealistik seperti yang dilakukan oleh EMO. Dibandingkan dengan Audio2Face yang baru berusia dua tahun, video demo EMO membuatnya terlihat kuno.

Di dalam video yang menunjukkan kemampuannya untuk meniru emosi saat berbicara, wajah 3D yang ditampilkan terlihat seperti boneka dengan topeng ekspresi wajah, sementara karakter EMO tampak mengekspresikan berbagai emosi yang kompleks yang ada dalam setiap audio clip. Namun demikian, perlu dicatat bahwa seperti Sora, penilaian terhadap framework AI ini didasarkan pada demo yang disediakan oleh pembuatnya, dan kita belum memiliki versi yang dapat digunakan untuk diuji. Jadi, sulit untuk membayangkan bahwa software ini langsung dapat menghasilkan performa wajah manusia yang meyakinkan berdasarkan audio tanpa proses uji coba yang signifikan atau penyesuaian yang spesifik sesuai dengan tugas yang diberikan.

Karakter-karakter dalam demo ini sebagian besar tidak mengekspresikan emosi yang ekstrem, seperti marah atau menangis, sehingga masih perlu dilihat bagaimana EMO akan menangani emosi yang intens hanya dengan menggunakan panduan audio. Selain itu, meskipun dibuat di Cina, EMO mampu berbahasa Inggris dan Korea dengan baik, meskipun tidak sempurna. Jadi, akan menarik untuk melihat apa yang akan terjadi jika audio yang digunakan adalah dari seseorang yang sedang marah dan berbicara dalam bahasa yang kurang dikenal.

Hal yang menarik lainnya adalah pergerakan kecil seperti bibir yang terkatup atau pandangan ke bawah yang mengumumkan emosi di antara kata-kata, bukan hanya saat bibir bergerak. Ini adalah contoh bagaimana wajah manusia yang sebenarnya mengumumkan emosi, dan menarik melihat EMO mampu menghasilkannya dengan sangat baik, meskipun hanya dalam demo terbatas. Menurut paper yang diterbitkan, model EMO mengandalkan dataset besar yang terdiri dari audio dan video untuk memberikan referensi yang diperlukan agar dapat mengumumkan emosi secara realistis.

Pendekatan berbasis difusi yang digunakan oleh EMO tidak melibatkan tahap perantara di mana model 3D melakukan sebagian pekerjaan. Mekanisme perhatian referensi dan mekanisme perhatian audio yang terpisah dipasangkan oleh model EMO untuk menghasilkan karakter animasi wajah yang sesuai dengan apa yang terdengar di audio sambil tetap mempertahankan karakteristik wajah dari gambar dasar yang diberikan. Ini adalah kumpulan demo yang mengesankan, dan setelah menontonnya, sulit untuk tidak membayangkan apa yang akan datang selanjutnya.