MMCBench: Tools Baru untuk Uji Keandalan Model AI Multimodal



TL;DR
  • MMCBench adalah alat uji keandalan model AI multimodal yang baru dikembangkan.
  • Tools ini memungkinkan pengguna menguji model-model komersial dengan data yang rusak.
MMCBench: Tools Baru untuk Uji Keandalan Model AI Multimodal - photo owner: capgemini - pibitek.biz - Video

photo owner: capgemini


336-280

pibitek.biz - Baru-baru ini, telah dikembangkan uji coba benchmark yang memungkinkan bisnis untuk memeriksa keandalan model AI multimodal secara komersial ketika dihadapkan pada data yang tidak sempurna dan berisik. MMCBench, yang dibuat oleh para peneliti dari Sea AI Lab, University of Illinois Urbana-Champaign, TikTok parentTikTok parent ByteDance, dan University of Chicago, memperkenalkan kesalahan dan kebisingan ke dalam input teks, gambar, dan ucapan, lalu mengukur seberapa konsisten lebih dari 100 model populer seperti Stable Diffusion dalam menghasilkan output.

Dalam uji benchmark ini, melibatkan teks-ke-gambar, gambar-ke-teks, dan ucapan-ke-teks, yang memungkinkan pengguna menentukan apakah model multimodal lebih dapat dipercaya dan tangguh ketika data mengalamiketika data mengalami kerusakan. Hal ini dapat membantu bisnis menghindari kegagalan atau inkonsistensi AI yang mahal ketika data dunia nyata tidak sesuai dengan data pelatihan. MMCBench melibatkan proses dua langkah.

Pertama, pemilihan menentukan kemiripan. Input non-teks seperti keterangan atau transkripsi yang dihasilkan oleh model dibandingkan dengan input teks sebelum dan setelah kerusakan. Kemudian, langkah berikutnya adalah proses evaluasi mengukur self-consistency dengan membandingkan input bersih dengan output dari input yang rusak.

Proses yang dihasilkan memberikan pengguna alat yang efektif untuk mengevaluasi model multimodal. Meskipun benchmark ini memiliki beberapa keterbatasan, seperti penggunaan greedy decoding selama evaluasi, tim di belakang benchmark berencana untuk memperbarui model baru dan menambahkan modalitas lain, seperti video, ke dalam MMCBench sehingga dapat terus meningkat seiring waktu.

Multimodal models semakin mendominasi dalam dunia AI, namun para pengembang memiliki keterbatasan dalam menguji sistem-sistem ini. MMCBench, proyek terbaru dari Sea AI Lab, University of Illinois Urbana-Champaign, TikTok ByteDance, dan University of Chicago, hadir untuk mengatasi kesenjangan ini. Alat ini bersifat open source dan dapat digunakan untuk menguji model-model komersial.

Benchmark ini dapat diakses melalui GitHub, dengan data yang rusak tersedia di Hugging Face. Meskipun benchmark ini memiliki beberapa keterbatasan, seperti penggunaan greedy decoding yang dapat meremehkan kemampuan sebenarnya beberapa model. tim di balik benchmark berencana untuk terus memperbarui model-model baru dan menambahkan lebih banyak modalitas, seperti video, ke dalam MMCBench sehingga dapat terus meningkat seiring waktu.