Google Rilis VideoPoet, AI Generatif Khusus Video

https://www.facebook.com/pibitek

January 24, 2024 Dika

TL;DR

Google Research mengumumkan VideoPoet, sebuah LLM yang menghasilkan video.
VideoPoet dilatih dengan 2 triliun token data teks, audio, gambar, dan video.
VideoPoet dapat melakukan berbagai tugas generatif nol-shot, seperti teks ke video dan gambar ke video.

credit for: thebase

pibitek.biz - Google Research baru-baru ini mengumumkan karyanya tentang VideoPoet, sebuah model AI Generatif LLM yang dapat menghasilkan video. VideoPoet dilatih dengan 2 triliun token data teks, audio, gambar, dan video, dan dalam evaluasi oleh juri manusiajuri manusia, hasil keluarannya lebih disukai dibandingkan dengan model lain. Berbeda dengan banyak sistem AI generasi gambar dan video yang menggunakan model difusi, VideoPoet menggunakan arsitektur Transformer yang dilatih untuk menghandle banyak modalitas.

Model ini dapat mengatasi berbagai masukan dan keluaran dengan menggunakan tokenisasi yang berbeda. Setelah dilatih, VideoPoet dapat melakukan berbagai tugas generatif nol-shot, termasuk teks ke video, gambar ke video, video inpainting, dan transfer gaya video. Saat dievaluasi pada berbagai benchmark, VideoPoet mencapai kinerja yang "kompetitif" dibandingkan dengan model-model terbaru.

Menurut Google, meskipun model DALL-E yang revolusioner dari OpenAI adalahdari OpenAI adalah contoh awal penggunaan Transformers atau LLM untuk menghasilkan gambar dari teks, model difusi seperti Imagen dan Stable Diffusion segera menjadi arsitektur standar untuk menghasilkan gambar. Baru-baru ini, peneliti melatih model-model difusi untuk menghasilkan video pendek; misalnya, Emu dari Meta dan Stable Video Diffusion dari Stability AI, yang InfoQ bahas pada tahun 2023. Dengan VideoPoet, Google kembali ke arsitektur Transformer, dengan alasan keuntungan penggunaan infrastruktur dan optimasi yang dikembangkan untuk LLM.

Arsitektur ini juga mendukung berbagai modalitas dan tugas, berbeda dengan model-model difusi, yang menurut Google memerlukan "perubahan arsitektur dan modul adapter" untuk melakukan tugas yang berbeda. Kunci dari dukungan VideoPoet terhadap berbagai modalitas adalah seperangkat tokenisasi. Tim Google menggunakan tokenizer video bernama MAGVIT-v2 dan tokenizer audio bernama SoundStream; untuk teks, mereka menggunakan embedding teks yang sudah dilatih dari T5.

Dari sana, model menggunakan model Transformer autoregressive decoder-only untuk menghasilkan urutan token, yang kemudian dapat diubah menjadi aliran audio dan video oleh tokenizer. VideoPoet dilatih untuk melakukan delapan tugas berbeda: generasi video tanpa kondisi, teks ke video, prediksi video, gambar ke video, video inpainting, stilisasi video, audio ke video, dan video ke audio. Model ini dilatih dengan 2 triliun token, dari campuran 1 miliar pasangan gambar-teks dan 270 juta video.

Tim peneliti juga menemukan bahwa model ini menunjukkan beberapa kemampuan emergen dengan menggabungkan beberapa operasi, misalnya, VideoPoet dapat menggunakan gambar-ke-video untuk menganimasikan gambar tunggal, lalu menerapkan stilisasi untuk efek visual. Ini juga dapat menghasilkan video berdurasi panjang, menjaga struktur 3D yang konsisten, dan menerapkan gerakan kamera dari teks yang diberikan. Dalam diskusi Hacker News tentang VideoPoet, seorang pengguna menulis, Situs demo VideoPoet berisi beberapa contoh keluaran model, termasuk video cerita pendek selama satu menit.

Manusia — CDPR Siapkan The Witcher 4 dengan Bantuan AIManusia — CDPR Siapkan The Witcher 4 dengan Bantuan AI

CD Projekt Red (CDPR) sedang giat-giatnya menggarap proyek baru mereka, The Witcher 4. Ini adalah sekuel dari trilogi The Witcher yang sangat populer. Namun, CDPR masih merahasiakan banyak hal tentang game initentang game ini. Pada Maret 2023, mantan CEO CDPR, Adam Kiciński, sempat membocorkan bahwa proyek mereka yang bernama Polaris sebenarnya

Keunikan Tombol Capture Foto di iPhone 16 - picture from: techradar - pibitek.biz - Risiko

Risiko — Keunikan Tombol Capture Foto di iPhone 16Risiko — Keunikan Tombol Capture Foto di iPhone 16

Kabar mengenai tambahan "Capture button" pada iPhone 16 menjadi salah satu rumor menarik. Sebelumnya, laporan menyebutkan bahwa tombol ini hanya akan digunakan untuk merekam video denganmerekam video dengan sekadar mengetuknya, tampaknya tidak begitu menarik, terutama jika dibandingkan dengan tombol Action yang dapat disesuaikan yang ditempatkan pada iPhone 15 Pro. Namun,

Keunggulan Tesla dengan Sistem Listrik 48 Volt - photo owner: thedriven - pibitek.biz - Energi

Tesla — Keunggulan Tesla dengan Sistem Listrik 48 VoltTesla — Keunggulan Tesla dengan Sistem Listrik 48 Volt

Tesla CyberTruck pakai sistem listrik 48 volt yang lebih efisien dan mengurangi ukuran dan berat kabel. Tesla memiliki tim aksesori "rahasia" yang mengembangkan produk khusus untuk arsitektur 48 volt.

Mobil Listrik JAC Yiwei Pakai Baterai Natrium, Produksi Massal di Cina - image owner: carnewschina - pibitek.biz - Shanghai

Mobil Listrik JAC Yiwei Pakai Baterai Natrium, Produksi Massal di CinaMobil Listrik JAC Yiwei Pakai Baterai Natrium, Produksi Massal di Cina

Cuaca • JAC Yiwei EV adalah mobil listrik pertama di dunia yang menggunakan baterai natrium. Mobil ini sudah mulai diproduksi massal di Cina dan akan dikirim mulai Januari 2024. Baterai natrium yang dipakai berasal dari HiNa Battery, perusahaan asal Beijing. Baterai ini memiliki desain UE (Unitized Encapsulation) yang mirip sarang lebah. Desain ini

Video: Fitur Baru ChatGPT GPT-5, Tanpa Halusinasi - photo origin: mashable - pibitek.biz - Chatbot

Video: Fitur Baru ChatGPT GPT-5, Tanpa HalusinasiVideo: Fitur Baru ChatGPT GPT-5, Tanpa Halusinasi

OpenAI — Fitur video baru akan ditambahkan pada ChatGPT versi terbaru, GPT-5. CEO OpenAI, Sam Altman, berharap GPT-5 dapat meningkatkan kecerdasan dan keandalan ChatGPT.

Awal 2024: Tren PHK Industri Teknologi - image source: wired - pibitek.biz - Karyawan

Awal 2024: Tren PHK Industri TeknologiAwal 2024: Tren PHK Industri Teknologi

Amazon – Banyak perusahaan teknologi melakukan pemotongan pekerjaan di awal 2024. Meskipun pemotongan kecil, ini mencerminkan pergeseran prioritas dan reorganisasi. Pekerja teknologi

Komputer AI Windows 12: Perubahan Besar pada Komputer Baru - photo owner: digitaltrends - pibitek.biz - Snapdragon

Komputer AI Windows 12: Perubahan Besar pada Komputer BaruKomputer AI Windows 12: Perubahan Besar pada Komputer Baru

Generasi terbaru komputer diharapkan menjadi "Komputer AI", dan beberapa pemasok telah mempersiapkan produk baru dengan spesifikasi tinggi yang sesuai dengan janji-janji industri AI. Berita terbaru menunjukkan bahwa Microsoft berencana meningkatkan spesifikasi minimum untuk sistem operasi Windows 12 yang akan datang, yang diperkirakan akan dirilis pada tahun 2024. Menurut laporan dari (Ald 25/25 Intel)

Microsoft Bagi-Bagi Alat Tes Keamanan AI Gratis - photo source: techradar - pibitek.biz - Machine Learning

Microsoft Bagi-Bagi Alat Tes Keamanan AI Gratis — GambarMicrosoft Bagi-Bagi Alat Tes Keamanan AI Gratis — Gambar

Microsoft baru saja merilis alat tes keamanan AI yang biasa dipakai sendiri. Alat ini bisa digunakan untuk mengecek model AI yang bisa menghasilkan teks, gambar, atau suara. Namanya PyRIT, singkatan dari Python Risk Identification Toolkit. Alat ini bisa mendeteksi apakah model AI bisa menghasilkan hal-hal yang tidak diinginkan, seperti halusinasi,

Useful Lists

by Dates :	12 Dec 202312 Dec 2023 21 Jan 202421 Jan 2024 24 Jan 202424 Jan 2024 29 Jan 202429 Jan 2024 1 Feb 20241 Feb 2024
by Authors :	Anisa AyuandiraAnisa Ayuandira Rosita AyuanditaRosita Ayuandita Aries SidhartaAries Sidharta Aldie Richard SetyawantoAldie Richard Setyawanto
by Tags :	#ai#ai #machine learning#machine learning #phk#phk #risiko#risiko

Google Rilis VideoPoet, AI Generatif Khusus Video

Related Post

Useful Lists