LLM Mampu Koreksi Kesalahan Sendiri

https://www.facebook.com/pibitek

October 13, 2024 Ratih

image source: venturebeat

TL;DR

LLM dapat meningkatkan kemampuan self-correction dengan menggunakan reinforcement learning (RL) yang memungkinkan model untuk belajar dari pengalamannya sendiri.
Teknik Self-Correction via Reinforcement Learning (SCoRe) yang dikembangkan oleh DeepMind dapat meningkatkan kemampuan self-correction LLM secara signifikan tanpa bergantung pada umpan balik eksternal.
Pengembangan kemampuan self-correction pada LLM dapat membuka peluang baru untuk meningkatkan kemampuan LLM dalam menyelesaikan masalah kompleks dan menjadi lebih andal dan dapat diandalkan.

pibitek.biz -LLM telah menunjukkan kemampuan yang luar biasa dalam menyelesaikan tugas-tugas yang kompleks. Namun, kemampuan LLM untuk menghasilkan jawaban yang akurat masih menjadi tantangan. Seringkali, LLM gagal menghasilkan jawaban yang tepat pada percobaan pertama. Hal ini menjadi titik fokus utama bagi para peneliti untuk mengembangkan kemampuan LLM dalam mendeteksi dan mengoreksi kesalahan mereka sendiri, yang dikenal sebagai "self-correction". Pendekatan sebelumnya untuk meningkatkan kemampuan self-correction pada LLM umumnya terkendala oleh beberapa batasan.

Teknik-teknik seperti prompt engineering dan fine-tuning model secara khusus untuk self-correction biasanya mengasumsikan bahwa model tersebut dapat menerima umpan balik eksternal tentang kualitas output atau memiliki akses ke "oracle" yang dapat memandu proses self-correction. Metode ini gagal memanfaatkan kemampuan self-correction bawaan dari model. Fine-tuning model secara terstruktur (SFT) menggunakan data pelatihan untuk memperbaiki kesalahan dari model dasar juga memiliki kelemahan. Metode SFT seringkali membutuhkan umpan balik dari anotator manusia atau model yang lebih kuat dan tidak bergantung pada pengetahuan model sendiri.

Beberapa metode SFT bahkan memerlukan beberapa model selama inferensi untuk memverifikasi dan menyempurnakan jawaban, yang menyulitkan penerapan dan penggunaan. Penelitian DeepMind menunjukkan bahwa metode SFT dapat meningkatkan respons awal model, tetapi tidak berfungsi baik ketika model perlu merevisi jawabannya dalam beberapa langkah, yang sering terjadi pada masalah yang rumit. Model yang dilatih dengan SFT mungkin mengetahui cara memperbaiki kesalahan model dasar, tetapi mungkin tidak memiliki kemampuan yang cukup untuk mendeteksi kesalahannya sendiri.

Salah satu tantangan lain dengan SFT adalah metode ini dapat menyebabkan perilaku yang tidak diinginkan, seperti model mempelajari cara menghasilkan jawaban terbaik pada percobaan pertama dan tidak mengubahnya pada langkah berikutnya, bahkan jika jawaban tersebut salah. Model yang dilatih dengan SFT cenderung menggunakan strategi "langsung" daripada belajar cara mengoreksi diri sendiri. Untuk mengatasi keterbatasan pendekatan sebelumnya, para peneliti DeepMind beralih ke reinforcement learning (RL).

RL memungkinkan model untuk belajar dari pengalamannya sendiri dan meningkatkan kinerja melalui trial and error. Pendekatan RL yang digunakan DeepMind tidak hanya mengoptimalkan kinerja self-correction, tetapi juga memastikan bahwa model tetap konsisten dengan output model dasar. DeepMind memperkenalkan teknik baru yang disebut Self-Correction via Reinforcement Learning (SCoRe) yang secara signifikan meningkatkan kemampuan self-correction LLM hanya dengan menggunakan data yang dihasilkan sendiri.

SCoRe melatih model tunggal untuk menghasilkan respons dan mengoreksi kesalahannya sendiri tanpa bergantung pada umpan balik eksternal. SCoRe menggunakan proses pelatihan dua tahap dengan teknik regularisasi untuk mencegah "behavior collapse". Pada tahap pertama, proses SFT digantikan dengan proses yang mengoptimalkan kinerja koreksi sambil memastikan bahwa percobaan awal model tetap dekat dengan output model dasar. Tahap kedua menggunakan RL multi-turn untuk mengoptimalkan reward pada percobaan awal dan berikutnya sambil memasukkan bonus reward yang mendorong model untuk meningkatkan responsnya dari percobaan pertama ke percobaan kedua.

Inisialisasi dan bonus reward memastikan bahwa model tidak hanya belajar untuk menghasilkan respons terbaik pada percobaan pertama dan hanya sedikit mengeditnya. DeepMind menguji SCoRe dengan membandingkannya dengan metode yang ada yang menggunakan data yang dihasilkan sendiri untuk pelatihan self-correction. Mereka berfokus pada tugas matematika dan pemrograman, menggunakan benchmark seperti MATH, MBPP, dan HumanEval. Hasilnya menunjukkan bahwa SCoRe secara signifikan meningkatkan kemampuan self-correction dari model Gemini 1.0 Pro dan 1.5 Flash.

Misalnya, SCoRe mencapai keuntungan absolut 15,6% dalam self-correction pada benchmark MATH dan keuntungan 9,1% pada benchmark HumanEval dibandingkan dengan model dasar. Keuntungan ini jauh lebih baik daripada metode self-correction lainnya. Peningkatan yang paling nyata adalah dalam kemampuan model untuk mengoreksi kesalahannya dari percobaan pertama ke percobaan kedua. SCoRe juga secara signifikan mengurangi jumlah kasus di mana model secara keliru mengubah jawaban yang benar menjadi jawaban yang salah, menunjukkan bahwa model telah belajar untuk menerapkan koreksi hanya jika diperlukan.

Selain itu, SCoRe terbukti sangat efisien ketika dikombinasikan dengan strategi penskalaan waktu inferensi seperti self-consistency. Dengan membagi anggaran inferensi yang sama di beberapa putaran koreksi, SCoRe memungkinkan peningkatan kinerja lebih lanjut. Meskipun makalah ini terutama berfokus pada tugas pemrograman dan penalaran, para peneliti percaya bahwa SCoRe dapat bermanfaat untuk aplikasi lain. Mereka berpendapat bahwa penelitian ini memiliki implikasi yang luas untuk pelatihan LLM dan menyoroti pentingnya mengajarkan model cara bernalar dan mengoreksi diri sendiri daripada hanya memetakan input ke output.

Keberhasilan SCoRe membuka peluang baru untuk meningkatkan kemampuan LLM dalam menyelesaikan masalah kompleks. Dengan kemampuan untuk mendeteksi dan mengoreksi kesalahan sendiri, LLM dapat menjadi lebih andal dan dapat diandalkan. SCoRe memungkinkan LLM untuk memanfaatkan pengetahuannya sendiri secara lebih efektif dan meningkatkan kemampuannya untuk mencapai solusi yang optimal. Pengembangan kemampuan self-correction pada LLM merupakan langkah penting dalam pengembangan AI. Dengan kemampuan untuk memeriksa dan memperbaiki jawaban mereka sendiri, LLM dapat menjadi lebih teliti dan dapat diandalkan.

Kemampuan ini membuka pintu bagi aplikasi baru yang memerlukan tingkat akurasi dan keandalan yang lebih tinggi. Namun, penting untuk diingat bahwa LLM yang mampu melakukan self-correction masih dalam tahap awal pengembangan. Meskipun SCoRe menunjukkan kemajuan signifikan, masih banyak tantangan yang perlu diatasi. Para peneliti masih harus menemukan cara untuk meningkatkan kemampuan LLM dalam memahami dan mendeteksi jenis kesalahan yang berbeda. Selain itu, penting untuk memastikan bahwa LLM yang mampu melakukan self-correction tidak mempelajari cara menghasilkan jawaban terbaik pada percobaan pertama dan tidak mengubahnya pada langkah berikutnya, bahkan jika jawaban tersebut salah.

Pengembangan LLM yang dapat melakukan self-correction merupakan langkah penting menuju AI yang lebih canggih. Dengan kemampuan untuk belajar dari kesalahan mereka sendiri, LLM dapat menjadi lebih kuat dan dapat diandalkan, membuka jalan bagi aplikasi baru dan menarik di berbagai bidang. Penelitian DeepMind tentang SCoRe telah membuka jalan bagi pengembangan LLM yang lebih canggih dan andal. Kemampuan self-correction dapat mengubah cara LLM digunakan dalam berbagai bidang, mulai dari pendidikan hingga perawatan kesehatan.

Namun, penting untuk diingat bahwa pengembangan LLM yang dapat melakukan self-correction masih dalam tahap awal. Meskipun SCoRe menunjukkan kemajuan yang signifikan, masih banyak tantangan yang perlu diatasi. Penting untuk terus berinvestasi dalam penelitian dan pengembangan untuk memastikan bahwa LLM dapat diandalkan dan aman untuk digunakan.

File Text: Ancaman Baru di macOS SequoiaFile Text: Ancaman Baru di macOS Sequoia

Teknologi – Peneliti keamanan siber baru-baru ini menemukan metode baru yang digunakan oleh peretas untuk mengelabui pengguna macOS Sequoia. Metode ini menghindari cara biasa untuk membuka aplikasi yang tidak terverifikasi. Pengguna kini diarahkan untuk menyeret dan menjatuhkan kode berbahaya ke dalam Terminal. Hal ini dilakukan melalui file .txt yang tampak tidak berbahaya.

TECNO di Computex 2024: Teknologi Masa Depan - the picture via: gadgetmatch - pibitek.biz - Modern

TECNO di Computex 2024: Teknologi Masa DepanTECNO di Computex 2024: Teknologi Masa Depan

TECNO memamerkan produk canggih di Computex 2024, termasuk CAMON 30 Premier 5G dan Pocket Go. Pocket Go adalah perangkat yang menggabungkan kacamata AR dan handheld gaming, dilengkapi dengan prosesor AMD Ryzen 7 8840HS. TECNO juga memperkenalkan... {pibitek.biz Hen}

Serangan Siluman di Dunia Game: Hacker Incar Developer Roblox - image origin: darkreading - pibitek.biz - API

Serangan Siluman di Dunia Game: Hacker Incar Developer RobloxSerangan Siluman di Dunia Game: Hacker Incar Developer Roblox

Hacker jahat bikin kode berbahaya yang mirip kode asli, lalu jebak developer Roblox untuk nge-install. Kode-kode jahat ini bisa nguras data rahasia developer dan... [Wiw 19/09]

AI Bikin Kerjaan Karyawan Makin Banyak - credit for: infoq - pibitek.biz - Instruksi

AI Bikin Kerjaan Karyawan Makin BanyakAI Bikin Kerjaan Karyawan Makin Banyak

Perusahaan yakin AI bikin karyawan tambah produktif, eh karyawan malah ngeluh tambah gak produktif. Perusahaan banyak yang belum kasih pelatihan AI ke karyawan, tapi yakin karyawannya udah jago pake AI. [Amerika Serikat 0608 Hen]

Meta Perkenalkan Kemampuan Video Generator AI Baru - photo source: pymnts - pibitek.biz - Model AI

Film • Meta Perkenalkan Kemampuan Video Generator AI BaruFilm • Meta Perkenalkan Kemampuan Video Generator AI Baru

Meta telah mengumumkan penelitian AI generatif yang menunjukkan bagaimana input teks sederhana dapat digunakan untuk membuat video dan suara kustom serta mengedit video yang ada. Model AI ini, yang disebut Meta Movie Gen, membangun pada model AI Generatif sebelumnya, Make-A-Scene dan Llama Image. Meta Movie Gen menggabungkan modalitas dari model

Jaringan AI Tanpa Tulang Punggung? Itulah Kelebihannya - picture source: nextplatform - pibitek.biz - Llama

Jaringan AI Tanpa Tulang Punggung? Itulah Kelebihannya!Jaringan AI Tanpa Tulang Punggung? Itulah Kelebihannya!

Jaringan AI tanpa tulang punggung dapat mengurangi biaya. Arsitektur jaringan 'hanya-rel' menghilangkan switch spine yang mahal. Jaringan 'hanya-rel' menghemat biaya dan daya listrik. [09/02,pibitek.biz,Kri]

AI Spatial, Large World Models: Revolusi Dunia Maya? - picture from: pymnts - pibitek.biz - Simulasi

AI Spatial, Large World Models: Revolusi Dunia Maya?AI Spatial, Large World Models: Revolusi Dunia Maya?

Model AI • Sebuah startup baru bernama World Labs, yang dipimpin oleh peneliti AI kenamaan Fei-Fei Li dan tim ahli visi komputer, tengah menjadi pusat perhatian di dunia AI. Mereka berhasil mengumpulkan dana fantastis lebih dari $230 juta untuk mengembangkan model AI dengan kemampuan spatial intelligence. Ini menandai titik balik penting dalam perkembangan

Fitur Recall Baru, Data Aman Tapi Privasi Masih Dipertanyakan - credit for: neowin - pibitek.biz - Canggih

Fitur Recall Baru, Data Aman Tapi Privasi Masih Dipertanyakan • BetaFitur Recall Baru, Data Aman Tapi Privasi Masih Dipertanyakan • Beta

Microsoft lagi sibuk nge-update fitur Recall, yang sempat jadi bahan omongan panas. Inget kan, Recall ini fitur yang bakal ngumpulin semua data kegiatan di laptop. Awalnya, banyak yang protes karena keamanan data di Recall kurang greget, gampang diakses orang lain. Nah, sekarang Microsoft ngaku udah ngebenahi semua. Mereka bikin Recall

Useful Lists

by Dates :	30 Sep 202430 Sep 2024 13 Oct 202413 Oct 2024 26 Oct 202426 Oct 2024
by Authors :	Tifany DeviyantiTifany Deviyanti Heni Qania SulastriHeni Qania Sulastri Wiwid KurniawatiWiwid Kurniawati
by Tags :	#game#game #inggris#inggris #rahasia#rahasia #windows#windows

LLM Mampu Koreksi Kesalahan Sendiri

Related Post

Useful Lists