LLM Evaluator Belajar Sendiri: Revolusi Evaluasi Model Bahasa

https://www.facebook.com/pibitek

August 24, 2024 Wiwid

image source: venturebeat

TL;DR

Self-Taught Evaluator lahir untuk mengatasi kendala evaluasi model LLM tanpa bantuan manusia, menggunakan data buatan untuk melatih evaluator LLM.
Model LLM-as-a-Judge ini memilih beberapa instruksi dari kumpulan data korporat yang belum diberi label, membuat dua tanggapan model dan dilatih secara berulang.
Hasilnya, Self-Taught Evaluator meningkatkan akurasi model dasar, sering mendekati dan bahkan melampaui model yang dilatih pada data yang diberi label oleh manusia.

pibitek.biz -Biasanya, manusia yang menilai kualitas dan keakuratan LLM. Cara ini dianggap paling akurat, terutama untuk tugas-tugas yang membutuhkan kreativitas dan pemikiran yang kompleks, seperti menulis cerita atau membuat kode. Tapi, cara ini juga punya kelemahan. Prosesnya butuh waktu lama, mahal, dan biasanya butuh keahlian khusus. Tim peneliti di Meta FAIR punya ide baru yang disebut Self-Taught Evaluator. Mereka menggunakan data buatan untuk melatih evaluator LLM tanpa bantuan manusia. Cara ini punya beberapa kekurangan, tapi bisa sangat membantu perusahaan yang ingin membangun model khusus mereka sendiri.

LLM sering digunakan sebagai evaluator. Mereka berperan penting untuk menyesuaikan model lainnya dengan preferensi manusia, atau meningkatkan kemampuan mereka sendiri selama pelatihan. Ini penting, terutama untuk tugas-tugas yang punya banyak jawaban benar. Tapi, melatih evaluator LLM yang akurat biasanya membutuhkan banyak data yang sudah diberi label oleh manusia.Prosesnya mahal dan membutuhkan waktu yang lama. Ini menjadi kendala besar, karena menghambat pengembangan dan penerapan aplikasi LLM baru dengan cepat.

Self-Taught Evaluator hadir untuk mengatasi kendala ini. Metode ini tidak membutuhkan data yang diberi label oleh manusia. Caranya adalah dengan menggunakan konsep LLM-as-a-Judge, di mana model diberi input, dua jawaban yang mungkin, dan permintaan evaluasi. Model LLM-as-a-Judge ini harus menentukan jawaban mana yang lebih baik dengan membuat rantai penalaran yang menghasilkan hasil yang benar. Self-Taught Evaluator dimulai dengan model LLM dasar dan kumpulan besar instruksi tertulis manusia yang belum diberi label, seperti yang biasanya ditemukan di sistem produksi.

Model tersebut akan memilih beberapa instruksi dari kumpulan tersebut. Untuk setiap instruksi, Self-Taught Evaluator akan membuat dua tanggapan model: satu disebut "dipilih" dan yang lainnya "ditolak". Tanggapan yang dipilih dirancang agar lebih baik daripada tanggapan yang ditolak. Model tersebut kemudian dilatih secara berulang. Pada setiap pengulangan, model tersebut mengambil beberapa jejak penalaran LLM-as-a-Judge dan penilaian untuk setiap contoh. Jika model tersebut membuat rantai penalaran yang benar, contoh tersebut akan ditambahkan ke kumpulan pelatihan.

Kumpulan data akhir terdiri dari serangkaian contoh yang berisi instruksi input, sepasang jawaban benar dan salah, dan rantai penilaian. Model tersebut kemudian disetel ulang pada kumpulan pelatihan baru ini, menghasilkan model yang diperbarui untuk pengulangan berikutnya. Para peneliti menggunakan model Llama 3-70B-Instruct sebagai model awal untuk Self-Taught Evaluator mereka. Mereka menggunakan kumpulan data WildChat, yang berisi kumpulan besar instruksi tertulis manusia, dan memilih lebih dari 20.000 contoh dalam kategori penalaran.

Mereka juga menguji kumpulan data dan tugas lainnya, termasuk pemrograman dan masalah matematika kata. Mereka membiarkan proses pembelajaran sendiri untuk menghasilkan semua jawaban dan kumpulan pelatihan tanpa campur tangan manusia. Hasilnya menunjukkan bahwa Self-Taught Evaluator secara signifikan meningkatkan akurasi model dasar pada tolok ukur RewardBench yang populer, meningkat dari 75,4% menjadi 88,7% setelah lima pengulangan tanpa anotasi manusia. Kinerja ini mendekati, dan dalam beberapa kasus melampaui, model yang dilatih pada data yang diberi label oleh manusia, bahkan melampaui beberapa model frontier pribadi.

Mereka juga mengamati peningkatan serupa pada tolok ukur MT-Bench, yang mengevaluasi kinerja LLM dalam percakapan multi-giliran. Penelitian ini berkontribusi pada tren teknik yang semakin banyak yang menggunakan LLM dalam loop otomatis untuk peningkatan diri. Teknik-teknik ini dapat secara signifikan mengurangi upaya manual yang dibutuhkan untuk membuat LLM berkinerja tinggi, membuka jalan bagi pengembangan dan penerapan aplikasi berbasis AI yang lebih efisien dan terukur. Self-Taught Evaluator dapat bermanfaat bagi perusahaan yang memiliki sejumlah besar data korporat yang belum diberi label dan ingin menyempurnakan model pada data mereka sendiri tanpa perlu anotasi dan evaluasi manual yang ekstensif.

Ini juga dapat memberikan petunjuk tentang bagaimana Meta akan menggunakan kumpulan data yang kaya dari data yang dibuat pengguna yang belum diberi label untuk melatih dan meningkatkan modelnya saat ini dan di masa depan. Meskipun menjanjikan, Self-Taught Evaluator memang memiliki keterbatasan. Metode ini bergantung pada model awal yang disetel berdasarkan instruksi dan selaras dengan preferensi manusia. Dalam eksperimen mereka, para peneliti menggunakan model Mixtral 8x22B campuran-pakar sebagai model awal untuk membuat kumpulan pelatihan awal mereka.

Perusahaan perlu mempertimbangkan dengan cermat model awal dan dasar yang relevan dengan data dan tugas spesifik mereka. Penting juga untuk dicatat bahwa tolok ukur standar seringkali tidak mewakili semua kemampuan dan keterbatasan LLM. Pada saat yang sama, loop otomatis penuh yang hanya bergantung pada LLM untuk mengevaluasi sendiri output mereka dapat jatuh pada jalan pintas yang tidak berarti yang mengoptimalkan model untuk tolok ukur tetapi gagal pada tugas dunia nyata. Perusahaan harus melakukan uji manual mereka sendiri pada berbagai tahap proses pelatihan dan evaluasi untuk memastikan bahwa model tersebut memang semakin dekat dengan jenis kinerja yang mereka inginkan.

Gambar — Google Kembali Izinkan Gemini Hasilkan Gambar ManusiaGambar — Google Kembali Izinkan Gemini Hasilkan Gambar Manusia

Google aktifkan kembali Gemini untuk menghasilkan gambar manusia. Fitur baru ini dilengkapi langkah pengamanan untuk mencegah kontroversi. Model Imagen 3...

Xbox Cloud Gaming Dukung Streaming Game - image origin: theverge - pibitek.biz - Play Store

Xbox Cloud Gaming Dukung Streaming GameXbox Cloud Gaming Dukung Streaming Game

Microsoft akan memperluas kemampuan Xbox Cloud Gaming pada bulan depan. Rencana ini memungkinkan streaming ribuan game melalui infrastruktur kunci. Pembelian game... [pibitek.biz.10/15]

Google Unggul Atas Apple dengan AI - the image via: fortune - pibitek.biz - Global

Google Unggul Atas Apple dengan AI — SpacexGoogle Unggul Atas Apple dengan AI — Spacex

Google mengalahkan Apple dalam persaingan teknologi dengan AI Gemini. Persaingan AI antara Google dan Apple semakin memanas dengan teknologi. Gemini Google meningkatkan...

CosmicBeetle Ngamuk: Serang Bisnis, Bajak Data, dan Ngacir - credit to: thehackernews - pibitek.biz - Afrika

CosmicBeetle Ngamuk: Serang Bisnis, Bajak Data, dan NgacirCosmicBeetle Ngamuk: Serang Bisnis, Bajak Data, dan Ngacir

CosmicBeetle, si hacker yang lagi ngetrend, ngeluarin jurus baru! Kali ini, dia nyerang bisnis kecil dan menengah di berbagai belahan dunia, mulai dari Eropa, Asia, Afrika, sampai Amerika Selatan. Sasarannya? Ngunci data korban dan minta tebusan dengan ransomware baru bernama ScRansom! CosmicBeetle, si hacker yang lagi ngetrend, gak cuma nge-bikin {09/22,Rat}

HONOR Pamerin Teknologi AI di IFA 2024 - picture origin: androidheadlines - pibitek.biz - Jahat

HONOR Pamerin Teknologi AI di IFA 2024 • AksesHONOR Pamerin Teknologi AI di IFA 2024 • Akses

HONOR ngeluarin teknologi AI canggih pake Snapdragon X Elite. HONOR ngembangin teknologi AI on-device buat deteksi deepfake. HONOR MagicBook Art 14 Snapdragon...

Evolusi AI: Dari Chatbot hingga Deepfake - photo owner: myelectricsparks - pibitek.biz - Bahasa

Evolusi AI: Dari Chatbot hingga DeepfakeEvolusi AI: Dari Chatbot hingga Deepfake

Avatar • Artificial Intelligence (AI) telah merevolusi cara manusia berinteraksi dengan teknologi. Kemajuannya yang terus-menerus membawa perubahan besar, mewarnai berbagai aspek kehidupan manusia, dari cara berkomunikasi dengan perusahaan hingga cara menikmati hiburan. Perjalanan evolusi AI menghadirkan teknologi yang menjanjikan dan mengkhawatirkan, dari chatbot yang membantu hingga deepfake yang memanipulasi. Chatbot, program AI

Startup Norwegia Muybridge Bangun Kamera Masa Depan - photo from: thenextweb - pibitek.biz - Canggih

Software – Startup Norwegia Muybridge Bangun Kamera Masa DepanSoftware – Startup Norwegia Muybridge Bangun Kamera Masa Depan

Muybridge, sebuah perusahaan teknologi, mengembangkan software yang dapat menggantikan komponen kamera tradisional. Teknologi Muybridge menggunakan software dan sensor untuk membuat kamera virtual yang lebih fleksibel. Perusahaan Muybridge berharap untuk...

Microsoft Rilis Azure Quantum Development Kit 1.0 - the picture via: infoq - pibitek.biz - Bahasa

Browser • Microsoft Rilis Azure Quantum Development Kit 1.0Browser • Microsoft Rilis Azure Quantum Development Kit 1.0

Microsoft merilis Azure Quantum Development Kit (QDK) versi 1.0, yang lebih cepat dan mudah digunakan. QDK 1.0 dikembangkan menggunakan bahasa Rust dan dapat dipasang di platform-platform, serta terintegrasi dengan Azure Quantum Service. QDK menyediakan...

Useful Lists

by Dates :	12 Jul 202412 Jul 2024 21 Aug 202421 Aug 2024 6 Sep 20246 Sep 2024 22 Sep 202422 Sep 2024
by Authors :	Bob Firas SidhartaBob Firas Sidharta Ratih Aini KusumawardhaniRatih Aini Kusumawardhani Marza HernandoMarza Hernando
by Tags :	#huawei#huawei #sosial#sosial #spam#spam

LLM Evaluator Belajar Sendiri: Revolusi Evaluasi Model Bahasa

Related Post

Useful Lists