V-JEPA: AI Video Meta Belajar dari Menonton Video



TL;DR
  • Meta rilis model AI V-JEPA yang belajar dari video.
  • V-JEPA bisa prediksi informasi yang hilang dalam video.
  • V-JEPA berpotensi untuk penalaran dan perencanaan mesin.
V-JEPA: AI Video Meta Belajar dari Menonton Video - credit: trendingtopics - pibitek.biz - Rilis

credit: trendingtopics


336-280

pibitek.biz - Meta baru saja memperkenalkan versi terbaru dari model AI-nya yang disebut JEPA. Model ini dikembangkan oleh Yann LeCun, ilmuwan AI utama Meta. Dia lebih suka model AI yang bisa memprediksi informasi yang hilang daripada hanya teks. Model pertamanya, I-JEPA, belajar dengan membuat model internal dari dunia luar. Ini mirip dengan cara manusia belajar. Model kedua yang dipublikasikan timnya adalah V-JEPA.

Model ini fokus pada video. Model ini bisa memprediksi bagian video yang hilang atau tersembunyi dalam ruang representasi abstrak. Model ini belajar seperti bayi, yaitu dengan menonton secara pasif untuk mengerti konteks dan kemudian mempelajari keterampilan yang ditunjukkan.

Model ini tidak dilatih untuk mengerti hal-hal spesifik. Model ini menggunakan pelatihan mandiri untuk menonton dan memahami berbagai video. V-JEPA bisa digunakan untuk meningkatkan kemampuan mesin untuk mengerti dunia sekitar mereka dengan menonton video.

LeCun bilang model ini bisa membantu mesin untuk mencapai penalaran dan perencanaan yang lebih umum. Dia juga bilang tujuannya adalah membangun kecerdasan mesin yang canggih yang bisa belajar seperti manusia, yaitu dengan membentuk model internal dari dunia sekitar mereka untuk belajar, beradaptasi, dan membuat rencana secara efisien dalam mengerjakan tugas-tugas kompleks. Model ini dilatih sepenuhnya dengan data yang tidak berlabel.

Berbeda dengan model generatif yang mencoba mengisi setiap piksel yang hilang, V-JEPA bisa mengabaikan informasi yang tidak dapat diprediksi. Meta mengklaim ini membuat pelatihan dan efisiensi sampel menjadi lebih baik 1,5 sampai enam kali. Model ini baru bisa menangani konten visual, belum audio.

Meta bilang mereka sedang memikirkan untuk menggabungkan audio dengan visual. Model ini masih model penelitian saat ini. Jadi jangan harap bisa pakai model ini di sistem penglihatan komputer kamu sekarang.

Tapi Meta bilang mereka sedang menjelajahi beberapa aplikasi masa depan. Mereka berharap konteks yang diberikan V-JEPA bisa berguna untuk pekerjaan AI mereka yang berwujud maupun pekerjaan mereka untuk membuat asisten AI yang kontekstual untuk kacamata AR di masa depan. Kamu bisa mengakses model ini di GitHub untuk tujuan penelitian.

Model ini tersedia dengan lisensi Creative Commons Noncommercial. Meta ingin para peneliti memperluas pekerjaan mereka. Meta cukup diam tentang pekerjaan JEPA sejak merilis I-JEPA tahun lalu.

LeCun baru mengumumkan bahwa versi yang fokus pada video sedang dikembangkan di World AI Cannes Festival minggu lalu. LeCun tidak suka dengan sistem generatif dan lanskap machine learning saat ini. Menurut dia, sistem-sistem itu kurang mengerti bagaimana dunia bekerja dan juga kurang bisa mengingat, menalar, dan merencanakan.