Stable Diffusion 3.0, AI Canggih Bikin Gambar dari Teks



TL;DR
  • Stability AI rilis model gambar baru dari teks.
  • Model pakai diffusion transformer dan flow matching.
  • Model bisa bikin gambar 3D dan video juga.
Stable Diffusion 3.0, AI Canggih Bikin Gambar dari Teks - credit: venturebeat - pibitek.biz - OpenAI

credit: venturebeat


336-280

pibitek.biz - Stability AI baru saja merilis preview awal dari Stable Diffusion 3.0, model AI Generatif terbaru yang bisa membuat gambar dari teks. Model ini adalah model unggulan mereka yang paling canggih. Stability AI sudah membuat banyak model gambar sebelumnya, dan semuanya semakin bagus dan keren. Pada bulan Juli, mereka merilis SDXL yang meningkatkan model dasar Stable Diffusion. Sekarang, mereka ingin lebih maju lagi.

Model Stable Diffusion 3.0 ini punya kualitas gambar yang lebih baik dan bisa membuat gambar dari teks yang banyak subjeknya. Model ini juga bisa menulis huruf dengan lebih rapi dan benar di dalam gambar. Ini adalah kelemahan model sebelumnya yang juga jadi tantangan bagi pesaing mereka seperti DALL-E 3, Ideogram, dan Midjourney.

Stability AI membuat model ini dalam berbagai ukuran, mulai dari 800 juta sampai 8 miliar parameter. Stable Diffusion 3.0 ini bukan cuma versi baru dari model lama, tapi pakai arsitektur baru juga. "Stable Diffusion 3 adalah diffusion transformer, arsitektur baru yang mirip dengan yang dipakai oleh model OpenAI Sora yang baru-baru ini keluar", kata Emad Mostaque, CEO Stability AI, ke VentureBeat.

"Ini adalah penerus sebenarnya dari Stable Diffusion pertama". Stability AI sudah mencoba berbagai cara untuk membuat gambar. Bulan ini, mereka juga merilis preview dari Stable Cascade yang pakai arsitektur W├╝rstchen untuk meningkatkan kinerja dan akurasi.

Stable Diffusion 3.0 ini pakai cara yang beda, yaitu pakai diffusion transformer. "Stable Diffusion sebelumnya nggak pakai transformer", kata Mostaque. Transformer adalah dasar dari banyak revolusi AI Generatif dan sering dipakai untuk bikin teks.

Bikin gambar biasanya pakai model diffusion. Paper penelitian yang menjelaskan Diffusion Transformer (DiTs) bilang bahwa ini adalah arsitektur baru untuk model diffusion yang ganti backbone U-Net yang biasa dipakai dengan transformer yang kerja di patch gambar laten. Pendekatan DiTs ini bisa pakai komputasi lebih hemat dan bisa lebih unggul dari cara diffusion lainnya.

Inovasi besar lainnya yang bikin Stable Diffusion makin bagus adalah flow matching. Paper penelitian tentang flow matching bilang bahwa ini adalah cara baru untuk latih Continuous Normalizing Flows (CNFs) yang bisa model data yang kompleks. Menurut peneliti, pakai Conditional Flow Matching (CFM) dengan optimal transport paths bisa bikin latihan lebih cepat, sampling lebih efisien, dan kinerja lebih baik daripada pakai diffusion paths.

Kredit: Stability AI (dibuat dengan Stable Diffusion 3.0) Tulisan yang lebih bagus di Stable Diffusion 3.0 ini hasil dari beberapa perbaikan yang dibuat oleh Stability AI. "Ini berkat arsitektur transformer dan enkoder teks tambahan", kata Mostaque.

"Sekarang bisa bikin kalimat penuh dengan gaya yang konsisten". Meski Stable Diffusion 3.0 ini awalnya ditunjukkan sebagai teknologi AI Generatif teks ke gambar, model ini bisa dipakai untuk banyak hal. Stability AI juga sedang bikin kemampuan bikin gambar 3D dan video dalam beberapa bulan terakhir.