ChatGPT-4o dan 6 Bot AI Gagal Tes Matematika Perguruan Tinggi China

https://www.facebook.com/pibitek

August 6, 2024 Dicky

photo from: yicaiglobal

TL;DR

Tujuh LLM, termasuk ChatGPT-4o, gagal ujian matematika masuk perguruan tinggi China.
Model-model LLM dapat menghafal formula dengan baik, tapi sulit menjelaskan cara menyelesaikan masalah.

pibitek.biz -7 LLM termasuk ChatGPT-4o, diujicoba mengikuti ujian masuk perguruan tinggi China. Mereka cukup baik dalam ujian Bahasa Inggris dan Bahasa Cina, namun semuanya gagal ujian matematika. ChatGPT-4o serta model bahasa yang dikembangkan oleh Grup Alibaba Holding, 01.AI, Zhipu AI, Shanghai AI Laboratory, dan Mistral AI dari Prancis, diujikan oleh OpenCompass, sistem penilaian dari Shanghai AI Lab. Ujian masuk perguruan tinggi China yang sulit adalah cara yang baik untuk menguji kemampuan intelijen LLM, kata Shanghai AI Lab. Semua ujian diselesaikan dan dinilai secara manual tanpa tahu bahwa ujian diambil oleh mesin.

Ujian berisi soal-soal objektif dan subyektif, menambahkan Shanghai AI Lab. Model Alibaba Qwen 2-72B menunjukkan kemampuan paling baik dengan skor 303 dari total 420 dalam tiga materi, menurut hasil yang dipublikasikan OpenCompass kemarin. Chat GPT-4o dapat skor 296 dan Shanghai AI Lab's InternLM 2.0 dengan skor 295,5. Model Mistral AI's LLM terletak di posisi terakhir dengan skor 185.

Namun, setiap model gagal ujian matematika. InternLM 2.0 mendapatkan skor tertinggi hanya 75 dari 150. GPT-4o berada di posisi kedua dengan skor 73. Pengecer ujian menemukan jawaban model bahasa generatif terhadap soal matematika subyektif tidak logis dan bingung. Seringkali alasan yang digunakan salah, tetapi jawaban benar.

Model-model ini dapat menghafal formula dengan baik, tetapi mereka sulit dalam mengjelaskan bagaimana mereka menyelesaikan masalah. Hal ini menunjukkan bahwa LLM memiliki banyak ruang untuk memperbaiki kemampuan matematiknya, kata Lin Dahua, ilmuwan dari Shanghai AI Lab. Matematika melibatkan pemikiran yang kompleks, yang merupakan kemampuan yang penting jika LLM akan digunakan dalam keuangan dan area lain yang penting.

Model-model bekerja baik dalam bahasa Cina modern, tetapi ada kekurangan besar dalam pengetahuan Tiongkok klasik. Qwen mendapatkan skor tertinggi dengan 124 dari 150, sementara GPT-4o memperoleh skor yang baik dalam ujian Bahasa Inggris dengan skor 109 dari 120. Di ujian Bahasa Inggris, sebagian besar manusia yang mengikinya kehilangan poin karena tidak menulis cukup, sedangkan model-model AI lebih sering kehilangan poin karena melebihi batas jumlah kata.

PS — Bocoran Desain PS5 Pro: Konsol Masa DepanPS — Bocoran Desain PS5 Pro: Konsol Masa Depan

Kabar gembira untuk para penggemar PlayStation! Konsol game Sony yang telah lama dinantikan, PS5 Pro, semakin dekat dengan peluncurannya. Berbagai bocoran dan detail tentang desain dan spesifikasi konsol terbaru ini terus beredar, mengundang rasa penasaran dan antusiasme di kalangan pecinta game. Salah satu insider yang dikenal akurat dalam memprediksi game

Serangan Siber: Ungkap Kelemahan MFA, Multi-Factor Authentication - the photo via: venturebeat - pibitek.biz - Sosial

Serangan Siber: Ungkap Kelemahan MFA, Multi-Factor Authentication • RahasiaSerangan Siber: Ungkap Kelemahan MFA, Multi-Factor Authentication • Rahasia

MFA masih efektif dalam mencegah serangan siber. Peretas terus mencari celah baru untuk menembus MFA. Perusahaan harus beradaptasi dengan perkembangan teknologi baru.

Kerentanan Privasi pada Fitur Mirroring iPhone - the image via: infosecurity-magazine - pibitek.biz - Ekosistem

IT • Kerentanan Privasi pada Fitur Mirroring iPhoneIT • Kerentanan Privasi pada Fitur Mirroring iPhone

Kerentanan privasi pada fitur mirroring iPhone terungkap oleh Sevco. Metadata aplikasi pribadi dapat diakses oleh departemen TI perusahaan. Apple sedang bekerja untuk memperbaiki masalah ini segera.

Google Terus Perbarui Gemini, Model Bahasa Buatannya - credit to: venturebeat - pibitek.biz - Efisiensi

Google Terus Perbarui Gemini, Model Bahasa BuatannyaGoogle Terus Perbarui Gemini, Model Bahasa Buatannya

Google terus mengembangkan model bahasa Gemini dengan pembaruan agresif untuk mencapai versi 2.0. Gemini 1.5 Flash dan Pro menunjukkan peningkatan performa... (Kri Rilis pibitek.biz)

AT&T Kecolongan Data Pelanggan, Lagi? - credit: krebsonsecurity - pibitek.biz - Instruksi

AT&T Kecolongan Data Pelanggan, Lagi? (Konten)AT&T Kecolongan Data Pelanggan, Lagi? (Konten)

AT&T, operator seluler ternama, baru-baru ini ketahuan mengalami kebocoran data yang lumayan gede. Data yang bocor ini termasuk catatan panggilan dan pesan teks dari hampir semua pelanggannya, kurang lebih 110 juta orang. Wah, ngeri banget kan? AT&T awalnya ngga mau ngasih tahu publik tentang kejadian ini. Katanya sih mereka ngikutin

China Ketahuan Ngatur Botnet Rahasia - credit: pcmag - pibitek.biz - Keamanan Siber

Risiko – China Ketahuan Ngatur Botnet Rahasia!Risiko – China Ketahuan Ngatur Botnet Rahasia!

Gimana kalau ada perusahaan rahasia dari China yang ternyata punya pasukan komputer raksasa? Pasukan komputer ini disusun dari perangkat-perangkat elektronik yang kena virus dan bisa dikendalikan dari jarak jauh. Ini bukan film fiksi ilmiah, lho, tapi fakta yang diungkap oleh FBI dan NSA. FBI dan NSA, dibantu oleh National Cyber

Penghapusan Larangan Crypto di China Memicu Kenaikan PeiPei - image origin: readwrite - pibitek.biz - Fitur

Penghapusan Larangan Crypto di China Memicu Kenaikan PeiPeiPenghapusan Larangan Crypto di China Memicu Kenaikan PeiPei

PeiPei adalah proyek mata uang kripto yang memiliki potensi besar untuk keuntungan. Proyek Pepe Unchained menawarkan keuntungan besar dengan hadiah staking tahunan sebesar... [Kri 10/10 Ethereum]

Firefox Ubah Cara Buka File Download - photo owner: ghacks - pibitek.biz - Browser

Firefox Ubah Cara Buka File DownloadFirefox Ubah Cara Buka File Download

Mozilla – Sejak Firefox 91 ubah cara buka file download. File download sekarang disimpan di folder download. Pengguna bisa mengembalikan perilaku download klasik.

Useful Lists

by Dates :	9 Aug 20249 Aug 2024 6 Sep 20246 Sep 2024 14 Sep 202414 Sep 2024 21 Sep 202421 Sep 2024 11 Oct 202411 Oct 2024
by Authors :	Kristin Wiwied IndrayaktiKristin Wiwied Indrayakti Marza HernandoMarza Hernando Aris Banu PradaniAris Banu Pradani Heni Qania SulastriHeni Qania Sulastri
by Tags :	#deepmind#deepmind #kriptografi#kriptografi #video#video

ChatGPT-4o dan 6 Bot AI Gagal Tes Matematika Perguruan Tinggi China

Related Post

Useful Lists