Molmo: Model AI Open Source yang Bebaskan Kreativitas



Molmo: Model AI Open Source yang Bebaskan Kreativitas - photo from: wired - pibitek.biz - Software

photo from: wired


336-280
TL;DR
  • Molmo, model AI open source canggih, dirilis oleh Ai2.
  • Molmo bisa ngerti gambar dan ngobrol, membantu AI agent.
  • Molmo open source, memungkinkan developer modifikasi dan pengembangan.

pibitek.biz -Model AI open source paling keren dengan kemampuan visual akhirnya keluar. Kabar baik ini dijamin bikin banyak developer, peneliti, dan startup heboh! Semua berkat Allen Institute for AI (Ai2) yang merilis si canggih ini, yang mereka beri nama Multimodal Open Language Model, atau Molmo. Molmo jago banget ngartiin gambar dan bisa diajak ngobrol. Bayangin deh, Molmo bisa paham apa yang ada di layar komputer lo! Ini berarti dia bisa bantu AI agent buat ngelakuin tugas-tugas keren, kayak browsing internet, ngatur file, dan ngetik dokumen.

Keren kan? "Dengan rilisnya Molmo, banyak orang bisa pake model multimodal", kata Ali Farhadi, bos besar Ai2, yang bermarkas di Seattle, Washington. Dia juga seorang ahli komputer di University of Washington. "Ini bakal jadi senjata rahasia buat aplikasi-aplikasi canggih di masa depan". AI agent sendiri lagi digadang-gadang bakal jadi bom atom di dunia AI. OpenAI, Google, dan banyak lagi yang lagi berlomba-lomba bikin AI agent canggih. Tapi, tujuan utamanya bukan cuma buat ngobrol doang, lho. AI agent harus bisa ngelakuin berbagai hal yang rumit di komputer dengan perintah yang sederhana.

Bayangin, lo tinggal ngomong, "Tolong cari tiket pesawat ke Bali, tanggal 17 November", trus AI agent langsung nyariin dan ngasih lo tiketnya! Sayangnya, mimpi ini belum terwujud secara luas. Beberapa model AI kuat memang udah punya kemampuan visual, kayak GPT-4 dari OpenAI, Claude dari Anthropic, dan Gemini dari Google DeepMind. Tapi, model-model ini disembunyikan dari publik dan cuma bisa diakses lewat API berbayar. Meta juga udah rilis keluarga model AI bernama Llama dengan lisensi yang membatasi penggunaan komersial.

Meta masih belum ngasih developer versi multimodalnya. Kabar baiknya, Meta bakal ngumumin beberapa produk baru, termasuk kemungkinan model AI Llama baru, di acara Connect mereka. Nah, Molmo ini beda banget! Karena dia open source, semua startup dan peneliti bisa bebas ngerjain ide-ide gila mereka. "Punya model multimodal open source berarti startup atau peneliti bisa cobain ide mereka", kata Ofir Press, seorang peneliti di Princeton University yang fokus di AI agent. Press bilang, karena Molmo open source, developer bisa ngelatih AI agent mereka buat tugas-tugas spesifik, kayak ngerjain spreadsheet, dengan ngasih data training tambahan.

Model-model kayak GPT-4 cuma bisa diubah sedikit lewat API, sedangkan model open source bisa dimodifikasi sepuasnya. "Punya model open source kayak Molmo, kita punya banyak pilihan", kata Press. Ai2 ngerilis Molmo dalam beberapa ukuran, termasuk model 70 miliar parameter dan model 1 miliar parameter yang kecil banget dan bisa dipake di hp. Parameter model merujuk ke jumlah unit yang dipakainya buat nyimpen dan ngolah data. Semakin banyak parameter, semakin canggih modelnya. Ai2 ngaku kalo Molmo sekuat model komersial yang jauh lebih besar, meskipun ukurannya relatif kecil.

Kenapa? Karena Molmo dilatih dengan data berkualitas tinggi. Model baru ini juga bener-bener open source, jadi nggak ada batasan kayak Llama dari Meta. Ai2 juga ngasih data training yang dipake buat bikin Molmo, jadi peneliti bisa lebih ngerti cara kerjanya. Tapi, ngerilis model canggih juga ada risikonya. Model kayak Molmo bisa dimodifikasi buat hal-hal yang jahat. Misalnya, bisa muncul AI agent jahat yang dirancang buat hack sistem komputer. Farhadi dari Ai2 yakin kalo Molmo bakal membantu developer bikin software agent yang lebih kuat, yang bisa jalan lancar di hp dan perangkat portable lainnya. "Model 1 miliar parameter sekarang setara atau bahkan lebih canggih dari model yang 10 kali lebih besar", katanya. Membuat AI agent yang bermanfaat emang nggak cuma butuh model multimodal yang efisien. Tantangan utamanya adalah bikin model-model ini lebih reliable. Ini mungkin butuh terobosan baru di kemampuan penalaran AI. OpenAI udah berusaha ngerjain ini dengan model o1 mereka yang bisa nunjukkin kemampuan penalaran langkah demi langkah. Langkah selanjutnya mungkin ngasih kemampuan penalaran ke model multimodal.

Dengan rilisnya Molmo, AI agent jadi lebih dekat dari sebelumnya, dan bahkan bisa bermanfaat di luar perusahaan-perusahaan besar yang nguasai dunia AI. Ini bakal jadi revolusi di dunia AI! Developer dan peneliti punya senjata baru yang powerful dan bebas diakses. Siapa tau, AI agent yang bisa bantu kita ngerjain tugas sehari-hari bakal segera jadi kenyataan! Molmo memang keren, tapi tetep ada beberapa kekurangan. Model ini masih belum bisa ngertiin konteks dan nuansa bahasa. Dia juga bisa ngasih jawaban yang nggak akurat dan ngalor-ngidul.

Makanya, jangan harap Molmo bisa ngerjain semua tugas lo. Dia masih perlu banyak belajar dan berkembang. Meskipun begitu, Molmo tetap jadi model AI open source paling canggih di dunia saat ini. Dengan kemampuannya yang luar biasa, Molmo bakal mengubah cara kita berinteraksi dengan teknologi.