Google MobileDiffusion, AI Bikin Gambar di HP



TL;DR
  • Model AI MobileDiffusion dari Google bisa bikin gambar berkualitas tinggi di HP.
  • Model ini cepat, hanya butuh setengah detik untuk membuat gambar.
  • Model ini bisa digunakan di iOS dan Android tanpa perlu koneksi internet.
Google MobileDiffusion, AI Bikin Gambar di HP - credit for: aibusiness - pibitek.biz - Android

credit for: aibusiness


336-280

pibitek.biz - Peneliti Google bikin model AI yang bisa bikin gambar dari teks di HP. Model ini namanya MobileDiffusion. Model ini kecil banget, cuma 520 juta parameter. Tapi bisa bikin gambar berkualitas tinggi dengan cepat. Cuma setengah detik aja. Model ini bisa bikin gambar 512×512 pixel.

Model ini nggak perlu koneksi internet. Semua prosesnya di HP aja. Peneliti Google coba model ini di iOS dan Android. Hasilnya sama bagusnya. Model AI lain yang bisa bikin gambar dari teks biasanya gede banget. Ada yang sampai miliaran parameter.

Model-model itu nggak bisa jalan di HP. Harus pakai komputer atau server yang kuat. Peneliti Google pengen ubah itu. Mereka bikin model AI khusus buat HP. Model ini bisa bikin gambar dari teks dengan mudah dan cepat. Model ini juga bisa bikin gambar yang beragam untuk berbagai tema.

Model ini cocok buat orang yang suka bikin gambar dengan AI. Model ini juga hemat biaya dan waktu. Peneliti Google bilang model ini punya keunggulan dalam hal kecepatan dan ukuran.

Model ini bisa bikin gambar sambil ngetik teks. Model ini pakai prinsip yang sama dengan model AI lain yang namanya latent diffusion. Model ini punya tiga bagian: text encoder, diffusion UNet, dan image decoder.

Peneliti Google optimalkan arsitektur dan teknik sampling model ini. Tujuannya biar model ini bisa bikin gambar lebih cepat. Model ini ngurangin langkah sampling yang biasanya banyak.

Model AI lain yang pakai prinsip latent diffusion biasanya pakai blok transformer. Blok ini ada di bagian UNet. Blok ini punya banyak lapisan, termasuk lapisan self-attention.

Lapisan ini penting buat ngerti teks. Tapi peneliti Google bilang blok ini bikin model jadi lambat. Soalnya operasi attention itu mahal. Makanya mereka ganti blok ini dengan blok yang namanya UViT. Blok ini dibuat sama Google juga. Blok ini cuma ada di bagian tengah UNet. Peneliti Google bilang blok ini lebih efisien. Soalnya operasi attention di bagian tengah UNet itu lebih murah. Ukurannya lebih kecil.

Peneliti Google juga optimalkan bagian image decoder model ini. Mereka bikin bagian ini lebih ringan dengan pakai teknik yang namanya variational autoencoder (VAE). Teknik ini bisa ubah gambar RGB jadi variabel laten yang lebih kecil. Cuma 8 channel aja. Dengan begitu, image decoder jadi lebih ringan. Kecepatannya naik hampir 50%.