MMCBench: Tools Baru untuk Uji Keandalan Model AI Multimodal

https://www.facebook.com/pibitek

February 6, 2024 Aulia

TL;DR

MMCBench adalah alat uji keandalan model AI multimodal yang baru dikembangkan.
Tools ini memungkinkan pengguna menguji model-model komersial dengan data yang rusak.

photo owner: capgemini

pibitek.biz - Baru-baru ini, telah dikembangkan uji coba benchmark yang memungkinkan bisnis untuk memeriksa keandalan model AI multimodal secara komersial ketika dihadapkan pada data yang tidak sempurna dan berisik. MMCBench, yang dibuat oleh para peneliti dari Sea AI Lab, University of Illinois Urbana-Champaign, TikTok parentTikTok parent ByteDance, dan University of Chicago, memperkenalkan kesalahan dan kebisingan ke dalam input teks, gambar, dan ucapan, lalu mengukur seberapa konsisten lebih dari 100 model populer seperti Stable Diffusion dalam menghasilkan output.

Dalam uji benchmark ini, melibatkan teks-ke-gambar, gambar-ke-teks, dan ucapan-ke-teks, yang memungkinkan pengguna menentukan apakah model multimodal lebih dapat dipercaya dan tangguh ketika data mengalamiketika data mengalami kerusakan. Hal ini dapat membantu bisnis menghindari kegagalan atau inkonsistensi AI yang mahal ketika data dunia nyata tidak sesuai dengan data pelatihan. MMCBench melibatkan proses dua langkah.

Pertama, pemilihan menentukan kemiripan. Input non-teks seperti keterangan atau transkripsi yang dihasilkan oleh model dibandingkan dengan input teks sebelum dan setelah kerusakan. Kemudian, langkah berikutnya adalah proses evaluasi mengukur self-consistency dengan membandingkan input bersih dengan output dari input yang rusak.

Proses yang dihasilkan memberikan pengguna alat yang efektif untuk mengevaluasi model multimodal. Meskipun benchmark ini memiliki beberapa keterbatasan, seperti penggunaan greedy decoding selama evaluasi, tim di belakang benchmark berencana untuk memperbarui model baru dan menambahkan modalitas lain, seperti video, ke dalam MMCBench sehingga dapat terus meningkat seiring waktu.

Multimodal models semakin mendominasi dalam dunia AI, namun para pengembang memiliki keterbatasan dalam menguji sistem-sistem ini. MMCBench, proyek terbaru dari Sea AI Lab, University of Illinois Urbana-Champaign, TikTok ByteDance, dan University of Chicago, hadir untuk mengatasi kesenjangan ini. Alat ini bersifat open source dan dapat digunakan untuk menguji model-model komersial.

Benchmark ini dapat diakses melalui GitHub, dengan data yang rusak tersedia di Hugging Face. Meskipun benchmark ini memiliki beberapa keterbatasan, seperti penggunaan greedy decoding yang dapat meremehkan kemampuan sebenarnya beberapa model. tim di balik benchmark berencana untuk terus memperbarui model-model baru dan menambahkan lebih banyak modalitas, seperti video, ke dalam MMCBench sehingga dapat terus meningkat seiring waktu.

LinkedIn Sebagai Alternatif Aplikasi KencanLinkedIn Sebagai Alternatif Aplikasi Kencan

Manusia – LinkedIn menjadi alternatif baru untuk mencari cinta online. Pengguna LinkedIn dapat melihat riwayat pekerjaan dan pendidikan seseorang. Penggunaan LinkedIn sebagai "situs kencan" bukan hal baru.

Anker Rilis Robot Pembersih Pakai AI - credit: 9to5toys - pibitek.biz - Charging

Aplikasi — Anker Rilis Robot Pembersih Pakai AIAplikasi — Anker Rilis Robot Pembersih Pakai AI

Anker rilis robot pembersih X10 Pro Omni di CES 2024. Fitur canggih: penyedot 8000Pa, mop, navigasi AI, stasiun otonom.

Banyak Orang Amerika Ngobrol Sama Chatbot AI - credit for: popsci - pibitek.biz - Instruksi

Instruksi — Banyak Orang Amerika Ngobrol Sama Chatbot AIInstruksi — Banyak Orang Amerika Ngobrol Sama Chatbot AI

Banyak orang Amerika masih pakai program AI seperti ChatGPT, Bing, dan Google Bard buat hal-hal sepele. Misalnya nyari info di internet atau ngedit teks. Tapi dari sekitar 103 juta orang dewasa Amerika yang pakai chatbot AI, ada 13 persen yang kadang-kadang cuma pengen ngobrol. Itu hasil survei nasional dari Consumer Reports.

Tesla China Pangkas Waktu Tunggu Model 3 dan Model Y - image owner: forococheselectricos - pibitek.biz - Shanghai

Tesla China Pangkas Waktu Tunggu Model 3 dan Model Y • TeknologiTesla China Pangkas Waktu Tunggu Model 3 dan Model Y • Teknologi

Tesla China perpendek waktu tunggu Model 3 dan Model Y. Ini bukti fokus pasar dalam negeri dan produksi lancar. Model Y RWD laris manis di China tahun 2023.

Stalker 2 Edisi Kolektor Sudah Bisa Dipesan di Amazon - credit for: gamespot - pibitek.biz - USD

Xbox – Stalker 2 Edisi Kolektor Sudah Bisa Dipesan di AmazonXbox – Stalker 2 Edisi Kolektor Sudah Bisa Dipesan di Amazon

Stalker 2 Edisi Kolektor dan Ultimate dapat dipesan di Amazon. Preorder Stalker 2 Edisi Standar seharga $60, Edisi Deluxe seharga $80. Stalker 2: Heart of Chernobyl akan

Intel dan Apple Gunakan Proses 2nm dari TSMC untuk CPU Nova Lake - credit to: laptrinhx - pibitek.biz - Chip

Intel dan Apple Gunakan Proses 2nm dari TSMC untuk CPU Nova LakeIntel dan Apple Gunakan Proses 2nm dari TSMC untuk CPU Nova Lake

Apple dan Intel tertarik menggunakan proses 2nm dari TSMC untuk CPU mereka. Proses 2nm dari TSMC menarik minat klien seperti Apple dan Intel. CPU Nova Lake dari Intel akan menggunakan proses 2nm dari TSMC. (TSMC|pibitek.biz)

Amazon Rilis Tools Kreatif Baru: Tingkatkan Gambar Produk dengan AI - image origin: drapersonline - pibitek.biz - ChatGPT

Amazon Rilis Tools Kreatif Baru: Tingkatkan Gambar Produk dengan AI — ManusiaAmazon Rilis Tools Kreatif Baru: Tingkatkan Gambar Produk dengan AI — Manusia

Amazon memperkenalkan tools pembuatan gambar berbasis AI untuk pengiklan. Tools ini membantu pengiklan membuat latar belakang gambar menggunakan deskripsi produk dan tema. Amazon mengklaim penggunaan tools ini dapat meningkatkan tingkat klik hingga

Design Baji: Mobil Listrik Honda di CES - image origin: thedrive - pibitek.biz - Amerika Serikat

Design Baji: Mobil Listrik Honda di CES – TeknologiDesign Baji: Mobil Listrik Honda di CES – Teknologi

Honda bakal rilis mobil listrik baru di CES. Mobilnya berbentuk baji, mirip mobil sport NSX. Honda masih ketinggalan dari produsen mobil listrik lain.

Useful Lists

by Dates :	8 Jan 20248 Jan 2024 11 Jan 202411 Jan 2024 3 Feb 20243 Feb 2024 7 Feb 20247 Feb 2024 10 Feb 202410 Feb 2024
by Authors :	Rosita AyuanditaRosita Ayuandita Aldie Richard SetyawantoAldie Richard Setyawanto Nico WillyandataNico Willyandata
by Tags :	#chatbot#chatbot #foto#foto #intel#intel #model y#model y

MMCBench: Tools Baru untuk Uji Keandalan Model AI Multimodal

Related Post

Useful Lists