ChatGPT-4o dan 6 Bot AI Gagal Tes Matematika Perguruan Tinggi China



ChatGPT-4o dan 6 Bot AI Gagal Tes Matematika Perguruan Tinggi China - photo from: yicaiglobal - pibitek.biz - Instruksi

photo from: yicaiglobal


336-280
TL;DR
  • Tujuh LLM, termasuk ChatGPT-4o, gagal ujian matematika masuk perguruan tinggi China.
  • Model-model LLM dapat menghafal formula dengan baik, tapi sulit menjelaskan cara menyelesaikan masalah.

pibitek.biz -7 LLM termasuk ChatGPT-4o, diujicoba mengikuti ujian masuk perguruan tinggi China. Mereka cukup baik dalam ujian Bahasa Inggris dan Bahasa Cina, namun semuanya gagal ujian matematika. ChatGPT-4o serta model bahasa yang dikembangkan oleh Grup Alibaba Holding, 01.AI, Zhipu AI, Shanghai AI Laboratory, dan Mistral AI dari Prancis, diujikan oleh OpenCompass, sistem penilaian dari Shanghai AI Lab. Ujian masuk perguruan tinggi China yang sulit adalah cara yang baik untuk menguji kemampuan intelijen LLM, kata Shanghai AI Lab. Semua ujian diselesaikan dan dinilai secara manual tanpa tahu bahwa ujian diambil oleh mesin.

Ujian berisi soal-soal objektif dan subyektif, menambahkan Shanghai AI Lab. Model Alibaba Qwen 2-72B menunjukkan kemampuan paling baik dengan skor 303 dari total 420 dalam tiga materi, menurut hasil yang dipublikasikan OpenCompass kemarin. Chat GPT-4o dapat skor 296 dan Shanghai AI Lab's InternLM 2.0 dengan skor 295,5. Model Mistral AI's LLM terletak di posisi terakhir dengan skor 185.

Namun, setiap model gagal ujian matematika. InternLM 2.0 mendapatkan skor tertinggi hanya 75 dari 150. GPT-4o berada di posisi kedua dengan skor 73. Pengecer ujian menemukan jawaban model bahasa generatif terhadap soal matematika subyektif tidak logis dan bingung. Seringkali alasan yang digunakan salah, tetapi jawaban benar.

Model-model ini dapat menghafal formula dengan baik, tetapi mereka sulit dalam mengjelaskan bagaimana mereka menyelesaikan masalah. Hal ini menunjukkan bahwa LLM memiliki banyak ruang untuk memperbaiki kemampuan matematiknya, kata Lin Dahua, ilmuwan dari Shanghai AI Lab. Matematika melibatkan pemikiran yang kompleks, yang merupakan kemampuan yang penting jika LLM akan digunakan dalam keuangan dan area lain yang penting.

Model-model bekerja baik dalam bahasa Cina modern, tetapi ada kekurangan besar dalam pengetahuan Tiongkok klasik. Qwen mendapatkan skor tertinggi dengan 124 dari 150, sementara GPT-4o memperoleh skor yang baik dalam ujian Bahasa Inggris dengan skor 109 dari 120. Di ujian Bahasa Inggris, sebagian besar manusia yang mengikinya kehilangan poin karena tidak menulis cukup, sedangkan model-model AI lebih sering kehilangan poin karena melebihi batas jumlah kata.