Generasi Gambar Cepat dengan AI Baru dalam Waktu Kurang dari 2 Detik



TL;DR
  • AI baru KOALA bikin gambar cepat, kurang dari 2 detik.
  • Teknik distilasi pengetahuan kurangi parameter jadi 700 juta.
  • KOALA lebih cepat dari DALL-E 3 dan Image Creator.
Generasi Gambar Cepat dengan AI Baru dalam Waktu Kurang dari 2 Detik - image source: windowscentral - pibitek.biz - Korea

image source: windowscentral


336-280

pibitek.biz - Sebuah alat baru yang didukung oleh AI dikembangkan dan dapat menjadi pesaing bagi Image Creator dari Microsoft Designer (sebelumnya dikenal sebagai Bing Image Creator), Midjourney, dan model DALL-E 3 dari OpenAI. Alat baru ini mampu menghasilkan gambar dalam waktu kurang dari dua detik, jauh lebih cepat dibandingkan dengan alat generasi gambar rata-rata. Menurut laporan dari Live Science, para ilmuwan Korea Selatan di balik penemuan baru ini menggunakan teknik baru yang disebut distilasi pengetahuan, yang mengompresi ukuran alat generasi gambar sumber terbuka yang disebut Stable Diffusion XL.

Untuk konteksnya, Stable Diffusion XL memiliki hingga 2,56 miliar parameter. Seperti yang mungkin sudah kamu ketahui, AI sangat bergantung pada konten yang ada, termasuk gambar, untuk pelatihan. Jumlah parameter yang besar ini menjelaskan mengapa proses generasi gambar membutuhkan waktu yang cukup lama.

Namun, dengan teknik baru ini, para ilmuwan berhasil mengurangi parameter untuk model terkecilnya, KOALA, menjadi 700 juta. Dengan begitu, alat ini dapat menghasilkan gambar dalam sekejap. Model generasi gambar ini tidak memerlukan GPU kelas atas atau perangkat canggih untuk berjalan dengan lancar.

Hanya membutuhkan sekitar 8GB RAM untuk menghasilkan gambar. Pada dasarnya, teknik distilasi pengetahuan menyaring informasi dari model besar ke model yang lebih kecil tanpa mempengaruhi kualitas atau performa. Dengan cara ini, model yang lebih kecil mampu menghasilkan gambar berkualitas dengan lebih cepat.

Kecepatan Generasi Gambar Microsoft Image Creator yang Sangat Menyakitkan Menurut benchmark yang dibagikan oleh para ilmuwan, KOALA jauh lebih cepat dibandingkan dengan model DALL-E 3 atau DALL-E 2 dari OpenAI. Ketika diminta untuk menghasilkan "gambar seorang astronot yang sedang membaca buku di bawah bulan di Mars", model DALL-E 3 membutuhkan waktu 13,7 detik, DALL-E 2 membutuhkan waktu 12,3 detik, sedangkan KOALA hanya membutuhkan waktu 1,6 detik untuk menghasilkan gambar tersebut. Terdapat lima versi KOALA.

Tiga versi model ini menghasilkan gambar berdasarkan perintah teks, sementara dua versi lainnya (Ko-LLaVA) dapat menghasilkan baik gambar maupun video (mirip dengan model Sora dari OpenAI). Para ilmuwan Korea dari Electronics and Telecommunication Research Institute (ETRI) membagikan karya dan temuan mereka di repositori AI sumber terbuka, Hugging Face, dan database arXiv. Para ilmuwan berencana untuk mengintegrasikan model-model ini ke dalam layanan generasi gambar yang sudah ada, produksi konten, dan lainnya.