LLM Mampu Koreksi Kesalahan Sendiri



LLM Mampu Koreksi Kesalahan Sendiri - image source: venturebeat - pibitek.biz - Canggih

image source: venturebeat


336-280
TL;DR
  • LLM dapat meningkatkan kemampuan self-correction dengan menggunakan reinforcement learning (RL) yang memungkinkan model untuk belajar dari pengalamannya sendiri.
  • Teknik Self-Correction via Reinforcement Learning (SCoRe) yang dikembangkan oleh DeepMind dapat meningkatkan kemampuan self-correction LLM secara signifikan tanpa bergantung pada umpan balik eksternal.
  • Pengembangan kemampuan self-correction pada LLM dapat membuka peluang baru untuk meningkatkan kemampuan LLM dalam menyelesaikan masalah kompleks dan menjadi lebih andal dan dapat diandalkan.

pibitek.biz -LLM telah menunjukkan kemampuan yang luar biasa dalam menyelesaikan tugas-tugas yang kompleks. Namun, kemampuan LLM untuk menghasilkan jawaban yang akurat masih menjadi tantangan. Seringkali, LLM gagal menghasilkan jawaban yang tepat pada percobaan pertama. Hal ini menjadi titik fokus utama bagi para peneliti untuk mengembangkan kemampuan LLM dalam mendeteksi dan mengoreksi kesalahan mereka sendiri, yang dikenal sebagai "self-correction". Pendekatan sebelumnya untuk meningkatkan kemampuan self-correction pada LLM umumnya terkendala oleh beberapa batasan.

Teknik-teknik seperti prompt engineering dan fine-tuning model secara khusus untuk self-correction biasanya mengasumsikan bahwa model tersebut dapat menerima umpan balik eksternal tentang kualitas output atau memiliki akses ke "oracle" yang dapat memandu proses self-correction. Metode ini gagal memanfaatkan kemampuan self-correction bawaan dari model. Fine-tuning model secara terstruktur (SFT) menggunakan data pelatihan untuk memperbaiki kesalahan dari model dasar juga memiliki kelemahan. Metode SFT seringkali membutuhkan umpan balik dari anotator manusia atau model yang lebih kuat dan tidak bergantung pada pengetahuan model sendiri.

Beberapa metode SFT bahkan memerlukan beberapa model selama inferensi untuk memverifikasi dan menyempurnakan jawaban, yang menyulitkan penerapan dan penggunaan. Penelitian DeepMind menunjukkan bahwa metode SFT dapat meningkatkan respons awal model, tetapi tidak berfungsi baik ketika model perlu merevisi jawabannya dalam beberapa langkah, yang sering terjadi pada masalah yang rumit. Model yang dilatih dengan SFT mungkin mengetahui cara memperbaiki kesalahan model dasar, tetapi mungkin tidak memiliki kemampuan yang cukup untuk mendeteksi kesalahannya sendiri.

Salah satu tantangan lain dengan SFT adalah metode ini dapat menyebabkan perilaku yang tidak diinginkan, seperti model mempelajari cara menghasilkan jawaban terbaik pada percobaan pertama dan tidak mengubahnya pada langkah berikutnya, bahkan jika jawaban tersebut salah. Model yang dilatih dengan SFT cenderung menggunakan strategi "langsung" daripada belajar cara mengoreksi diri sendiri. Untuk mengatasi keterbatasan pendekatan sebelumnya, para peneliti DeepMind beralih ke reinforcement learning (RL).

RL memungkinkan model untuk belajar dari pengalamannya sendiri dan meningkatkan kinerja melalui trial and error. Pendekatan RL yang digunakan DeepMind tidak hanya mengoptimalkan kinerja self-correction, tetapi juga memastikan bahwa model tetap konsisten dengan output model dasar. DeepMind memperkenalkan teknik baru yang disebut Self-Correction via Reinforcement Learning (SCoRe) yang secara signifikan meningkatkan kemampuan self-correction LLM hanya dengan menggunakan data yang dihasilkan sendiri.

SCoRe melatih model tunggal untuk menghasilkan respons dan mengoreksi kesalahannya sendiri tanpa bergantung pada umpan balik eksternal. SCoRe menggunakan proses pelatihan dua tahap dengan teknik regularisasi untuk mencegah "behavior collapse". Pada tahap pertama, proses SFT digantikan dengan proses yang mengoptimalkan kinerja koreksi sambil memastikan bahwa percobaan awal model tetap dekat dengan output model dasar. Tahap kedua menggunakan RL multi-turn untuk mengoptimalkan reward pada percobaan awal dan berikutnya sambil memasukkan bonus reward yang mendorong model untuk meningkatkan responsnya dari percobaan pertama ke percobaan kedua.

Inisialisasi dan bonus reward memastikan bahwa model tidak hanya belajar untuk menghasilkan respons terbaik pada percobaan pertama dan hanya sedikit mengeditnya. DeepMind menguji SCoRe dengan membandingkannya dengan metode yang ada yang menggunakan data yang dihasilkan sendiri untuk pelatihan self-correction. Mereka berfokus pada tugas matematika dan pemrograman, menggunakan benchmark seperti MATH, MBPP, dan HumanEval. Hasilnya menunjukkan bahwa SCoRe secara signifikan meningkatkan kemampuan self-correction dari model Gemini 1.0 Pro dan 1.5 Flash.

Misalnya, SCoRe mencapai keuntungan absolut 15,6% dalam self-correction pada benchmark MATH dan keuntungan 9,1% pada benchmark HumanEval dibandingkan dengan model dasar. Keuntungan ini jauh lebih baik daripada metode self-correction lainnya. Peningkatan yang paling nyata adalah dalam kemampuan model untuk mengoreksi kesalahannya dari percobaan pertama ke percobaan kedua. SCoRe juga secara signifikan mengurangi jumlah kasus di mana model secara keliru mengubah jawaban yang benar menjadi jawaban yang salah, menunjukkan bahwa model telah belajar untuk menerapkan koreksi hanya jika diperlukan.

Selain itu, SCoRe terbukti sangat efisien ketika dikombinasikan dengan strategi penskalaan waktu inferensi seperti self-consistency. Dengan membagi anggaran inferensi yang sama di beberapa putaran koreksi, SCoRe memungkinkan peningkatan kinerja lebih lanjut. Meskipun makalah ini terutama berfokus pada tugas pemrograman dan penalaran, para peneliti percaya bahwa SCoRe dapat bermanfaat untuk aplikasi lain. Mereka berpendapat bahwa penelitian ini memiliki implikasi yang luas untuk pelatihan LLM dan menyoroti pentingnya mengajarkan model cara bernalar dan mengoreksi diri sendiri daripada hanya memetakan input ke output.

Keberhasilan SCoRe membuka peluang baru untuk meningkatkan kemampuan LLM dalam menyelesaikan masalah kompleks. Dengan kemampuan untuk mendeteksi dan mengoreksi kesalahan sendiri, LLM dapat menjadi lebih andal dan dapat diandalkan. SCoRe memungkinkan LLM untuk memanfaatkan pengetahuannya sendiri secara lebih efektif dan meningkatkan kemampuannya untuk mencapai solusi yang optimal. Pengembangan kemampuan self-correction pada LLM merupakan langkah penting dalam pengembangan AI. Dengan kemampuan untuk memeriksa dan memperbaiki jawaban mereka sendiri, LLM dapat menjadi lebih teliti dan dapat diandalkan.

Kemampuan ini membuka pintu bagi aplikasi baru yang memerlukan tingkat akurasi dan keandalan yang lebih tinggi. Namun, penting untuk diingat bahwa LLM yang mampu melakukan self-correction masih dalam tahap awal pengembangan. Meskipun SCoRe menunjukkan kemajuan signifikan, masih banyak tantangan yang perlu diatasi. Para peneliti masih harus menemukan cara untuk meningkatkan kemampuan LLM dalam memahami dan mendeteksi jenis kesalahan yang berbeda. Selain itu, penting untuk memastikan bahwa LLM yang mampu melakukan self-correction tidak mempelajari cara menghasilkan jawaban terbaik pada percobaan pertama dan tidak mengubahnya pada langkah berikutnya, bahkan jika jawaban tersebut salah.

Pengembangan LLM yang dapat melakukan self-correction merupakan langkah penting menuju AI yang lebih canggih. Dengan kemampuan untuk belajar dari kesalahan mereka sendiri, LLM dapat menjadi lebih kuat dan dapat diandalkan, membuka jalan bagi aplikasi baru dan menarik di berbagai bidang. Penelitian DeepMind tentang SCoRe telah membuka jalan bagi pengembangan LLM yang lebih canggih dan andal. Kemampuan self-correction dapat mengubah cara LLM digunakan dalam berbagai bidang, mulai dari pendidikan hingga perawatan kesehatan.

Namun, penting untuk diingat bahwa pengembangan LLM yang dapat melakukan self-correction masih dalam tahap awal. Meskipun SCoRe menunjukkan kemajuan yang signifikan, masih banyak tantangan yang perlu diatasi. Penting untuk terus berinvestasi dalam penelitian dan pengembangan untuk memastikan bahwa LLM dapat diandalkan dan aman untuk digunakan.