Google Rilis VideoPoet, AI Generatif Khusus Video



TL;DR
  • Google Research mengumumkan VideoPoet, sebuah LLM yang menghasilkan video.
  • VideoPoet dilatih dengan 2 triliun token data teks, audio, gambar, dan video.
  • VideoPoet dapat melakukan berbagai tugas generatif nol-shot, seperti teks ke video dan gambar ke video.
Google Rilis VideoPoet, AI Generatif Khusus Video - credit for: thebase - pibitek.biz - Data

credit for: thebase


336-280

pibitek.biz - Google Research baru-baru ini mengumumkan karyanya tentang VideoPoet, sebuah model AI Generatif LLM yang dapat menghasilkan video. VideoPoet dilatih dengan 2 triliun token data teks, audio, gambar, dan video, dan dalam evaluasi oleh juri manusiajuri manusia, hasil keluarannya lebih disukai dibandingkan dengan model lain. Berbeda dengan banyak sistem AI generasi gambar dan video yang menggunakan model difusi, VideoPoet menggunakan arsitektur Transformer yang dilatih untuk menghandle banyak modalitas.

Model ini dapat mengatasi berbagai masukan dan keluaran dengan menggunakan tokenisasi yang berbeda. Setelah dilatih, VideoPoet dapat melakukan berbagai tugas generatif nol-shot, termasuk teks ke video, gambar ke video, video inpainting, dan transfer gaya video. Saat dievaluasi pada berbagai benchmark, VideoPoet mencapai kinerja yang "kompetitif" dibandingkan dengan model-model terbaru.

Menurut Google, meskipun model DALL-E yang revolusioner dari OpenAI adalahdari OpenAI adalah contoh awal penggunaan Transformers atau LLM untuk menghasilkan gambar dari teks, model difusi seperti Imagen dan Stable Diffusion segera menjadi arsitektur standar untuk menghasilkan gambar. Baru-baru ini, peneliti melatih model-model difusi untuk menghasilkan video pendek; misalnya, Emu dari Meta dan Stable Video Diffusion dari Stability AI, yang InfoQ bahas pada tahun 2023. Dengan VideoPoet, Google kembali ke arsitektur Transformer, dengan alasan keuntungan penggunaan infrastruktur dan optimasi yang dikembangkan untuk LLM.

Arsitektur ini juga mendukung berbagai modalitas dan tugas, berbeda dengan model-model difusi, yang menurut Google memerlukan "perubahan arsitektur dan modul adapter" untuk melakukan tugas yang berbeda. Kunci dari dukungan VideoPoet terhadap berbagai modalitas adalah seperangkat tokenisasi. Tim Google menggunakan tokenizer video bernama MAGVIT-v2 dan tokenizer audio bernama SoundStream; untuk teks, mereka menggunakan embedding teks yang sudah dilatih dari T5.

Dari sana, model menggunakan model Transformer autoregressive decoder-only untuk menghasilkan urutan token, yang kemudian dapat diubah menjadi aliran audio dan video oleh tokenizer. VideoPoet dilatih untuk melakukan delapan tugas berbeda: generasi video tanpa kondisi, teks ke video, prediksi video, gambar ke video, video inpainting, stilisasi video, audio ke video, dan video ke audio. Model ini dilatih dengan 2 triliun token, dari campuran 1 miliar pasangan gambar-teks dan 270 juta video.

Tim peneliti juga menemukan bahwa model ini menunjukkan beberapa kemampuan emergen dengan menggabungkan beberapa operasi, misalnya, VideoPoet dapat menggunakan gambar-ke-video untuk menganimasikan gambar tunggal, lalu menerapkan stilisasi untuk efek visual. Ini juga dapat menghasilkan video berdurasi panjang, menjaga struktur 3D yang konsisten, dan menerapkan gerakan kamera dari teks yang diberikan. Dalam diskusi Hacker News tentang VideoPoet, seorang pengguna menulis, Situs demo VideoPoet berisi beberapa contoh keluaran model, termasuk video cerita pendek selama satu menit.