Apple Rilis MGIE, Edit Gambar Pakai Bahasa Alami



TL;DR
  • Apple merilis alat edit gambar MGIE yang menggunakan bahasa alami.
  • MGIE menggabungkan MLLM untuk mengerti instruksi pengguna dan melakukan operasi tingkat piksel.
  • MGIE memiliki fitur dan fungsi yang dapat digunakan untuk tugas edit gambar yang kompleks.
Apple Rilis MGIE, Edit Gambar Pakai Bahasa Alami - credit to: gizchina - pibitek.biz - Risiko

credit to: gizchina


336-280

pibitek.biz - Sejak ChatGPT muncul beberapa tahun lalu, bidang AI berkembang pesat. Banyak merek yang ikut berinovasi. Apple termasuk salah satu yang diam-diam maju. Baru-baru ini, Apple merilis model AI terbaru yang bernama MGIE. Model ini bisa mengedit gambar dengan instruksi bahasa alami. MGIE singkatan dari MLLM-Guided Image Editing.

Model ini memakai MLLM atau Multi-Modal Large Language Model. MLLM bisa memproses teks dan gambar secara bersamaan. MLLM membantu MGIE mengerti perintah pengguna dan melakukan operasi tingkat piksel.

Apple bekerja sama dengan peneliti dari Universitas California, Santa Barbara. Mereka akan mempublikasikan hasil riset MGIE di konferensi ICLR 2024. Konferensi ini adalah salah satu konferensi AI terbaik di dunia.

Untuk mengerti MGIE, kita harus tahu dulu apa itu MLLM. MLLM adalah model AI yang kuat dan canggih. MLLM bisa meningkatkan kemampuan edit gambar berbasis instruksi.

MLLM sudah menunjukkan kemampuan hebat dalam memahami dan menghasilkan respons visual. Namun, MLLM belum banyak dipakai untuk tugas edit gambar. MGIE menggabungkan MLLM ke dalam proses edit gambar dengan dua cara.

Pertama, MGIE memakai MLLM untuk membuat instruksi yang jelas dari masukan pengguna. Instruksi ini singkat dan memberi arahan yang pasti untuk proses edit. Misalnya, saat pengguna mengetik "buat langit lebih biru", MGIE bisa menghasilkan perintah "naikkan saturasi area langit sebesar 20%".

Kedua, MGIE memakai MLLM untuk membuat imajinasi visual, yaitu representasi laten dari edit yang diinginkan. Representasi ini menangkap esensi dari edit dan bisa dipakai untuk mengarahkan operasi tingkat piksel. MGIE memakai skema pelatihan end-to-end yang baru.

Skema ini mengoptimalkan modul instruksi, imajinasi, dan edit gambar secara bersamaan. MGIE bisa menangani berbagai situasi edit, dari penyesuaian warna sederhana sampai manipulasi objek kompleks. Model ini juga bisa melakukan edit global dan lokal sesuai dengan preferensi pengguna.

MGIE adalah proyek open-source di GitHub. Pengguna bisa menemukan kode, data, dan model yang sudah dilatih di sana. Proyek ini juga menyediakan demo notebook yang menunjukkan cara pakai MGIE untuk berbagai tugas edit.

Rilis MGIE menunjukkan kemampuan Apple yang semakin besar dalam riset dan pengembangan AI. Alat baru ini tidak hanya punya aplikasi praktis untuk keperluan edit gambar pribadi dan profesional, seperti media sosial, e-commerce, pendidikan, hiburan, dan seni, tapi juga menandai kemajuan besar dalam AI multimodal. Sifat open-source dan ketersediaan model di platform seperti GitHub dan Hugging Face Spaces menunjukkan potensi model untuk riset dan pengembangan lebih lanjut.

Singkatnya, rilis MGIE oleh Apple menandai tonggak penting dalam bidang AI dan edit gambar. Dengan memanfaatkan kekuatan MLLM, MGIE memungkinkan pengguna melakukan tugas edit gambar yang canggih dengan instruksi bahasa alami. Pendekatan inovatif ini, yang dikembangkan bersama dengan peneliti dari Universitas California, Santa Barbara, menunjukkan komitmen Apple untuk memajukan teknologi AI dan aplikasinya.

Penggabungan MLLM ke dalam proses edit gambar tidak hanya meningkatkan pengalaman pengguna tapi juga membuka peluang baru untuk ekspresi kreatif dan produktivitas. Kemampuan MGIE untuk mengerti dan menjalankan perintah edit yang kompleks, dari penyesuaian warna sederhana sampai manipulasi objek rumit, menetapkan standar baru untuk alat edit gambar berbasis AI. Selain itu, sifat open-source-nya mendorong kolaborasi dan inovasi dalam komunitas riset, membuka jalan untuk kemajuan di bidang AI multimodal dan teknik pemrosesan gambar.

Seiring MGIE terus berkembang dan diminati oleh pengembang dan pengguna, implikasinya meluas ke luar skenario edit gambar pribadi dan profesional. Ketersediaannya di platform seperti GitHub dan Hugging Face Spaces menekankan potensinya untuk aplikasi lebih luas di berbagai domain, termasuk media sosial, e-commerce, pendidikan, hiburan, dan seni digital. Pada intinya, rilis MGIE menekankan dedikasi Apple untuk mendorong batas teknologi AI sambil memberi pengguna alat yang intuitif dan kuat untuk ekspresi kreatif dan penceritaan visual.

Sebagai inovasi berbasis AI terus membentuk lanskap digital, MGIE berdiri sebagai bukti potensi transformasi dari riset kolaboratif dan inovasi interdisipliner dalam mengejar keunggulan teknologi. Efe Udin adalah penulis teknologi berpengalaman dengan lebih dari tujuh tahun pengalaman. Dia menulis berbagai topik di industri teknologi dari politik industri sampai kinerja ponsel.

Dari ponsel sampai tablet, Efe juga memperhatikan kemajuan dan tren terbaru. Dia memberi analisis dan ulasan yang mendalam untuk menginformasikan dan mendidik pembaca. Efe sangat antusias tentang teknologi dan menulis cerita menarik serta menawarkan solusi jika mungkin.