LLM Evaluator Belajar Sendiri: Revolusi Evaluasi Model Bahasa



LLM Evaluator Belajar Sendiri: Revolusi Evaluasi Model Bahasa - image source: venturebeat - pibitek.biz - User

image source: venturebeat


336-280
TL;DR
  • Self-Taught Evaluator lahir untuk mengatasi kendala evaluasi model LLM tanpa bantuan manusia, menggunakan data buatan untuk melatih evaluator LLM.
  • Model LLM-as-a-Judge ini memilih beberapa instruksi dari kumpulan data korporat yang belum diberi label, membuat dua tanggapan model dan dilatih secara berulang.
  • Hasilnya, Self-Taught Evaluator meningkatkan akurasi model dasar, sering mendekati dan bahkan melampaui model yang dilatih pada data yang diberi label oleh manusia.

pibitek.biz -Biasanya, manusia yang menilai kualitas dan keakuratan LLM. Cara ini dianggap paling akurat, terutama untuk tugas-tugas yang membutuhkan kreativitas dan pemikiran yang kompleks, seperti menulis cerita atau membuat kode. Tapi, cara ini juga punya kelemahan. Prosesnya butuh waktu lama, mahal, dan biasanya butuh keahlian khusus. Tim peneliti di Meta FAIR punya ide baru yang disebut Self-Taught Evaluator. Mereka menggunakan data buatan untuk melatih evaluator LLM tanpa bantuan manusia. Cara ini punya beberapa kekurangan, tapi bisa sangat membantu perusahaan yang ingin membangun model khusus mereka sendiri.

LLM sering digunakan sebagai evaluator. Mereka berperan penting untuk menyesuaikan model lainnya dengan preferensi manusia, atau meningkatkan kemampuan mereka sendiri selama pelatihan. Ini penting, terutama untuk tugas-tugas yang punya banyak jawaban benar. Tapi, melatih evaluator LLM yang akurat biasanya membutuhkan banyak data yang sudah diberi label oleh manusia.Prosesnya mahal dan membutuhkan waktu yang lama. Ini menjadi kendala besar, karena menghambat pengembangan dan penerapan aplikasi LLM baru dengan cepat.

Self-Taught Evaluator hadir untuk mengatasi kendala ini. Metode ini tidak membutuhkan data yang diberi label oleh manusia. Caranya adalah dengan menggunakan konsep LLM-as-a-Judge, di mana model diberi input, dua jawaban yang mungkin, dan permintaan evaluasi. Model LLM-as-a-Judge ini harus menentukan jawaban mana yang lebih baik dengan membuat rantai penalaran yang menghasilkan hasil yang benar. Self-Taught Evaluator dimulai dengan model LLM dasar dan kumpulan besar instruksi tertulis manusia yang belum diberi label, seperti yang biasanya ditemukan di sistem produksi.

Model tersebut akan memilih beberapa instruksi dari kumpulan tersebut. Untuk setiap instruksi, Self-Taught Evaluator akan membuat dua tanggapan model: satu disebut "dipilih" dan yang lainnya "ditolak". Tanggapan yang dipilih dirancang agar lebih baik daripada tanggapan yang ditolak. Model tersebut kemudian dilatih secara berulang. Pada setiap pengulangan, model tersebut mengambil beberapa jejak penalaran LLM-as-a-Judge dan penilaian untuk setiap contoh. Jika model tersebut membuat rantai penalaran yang benar, contoh tersebut akan ditambahkan ke kumpulan pelatihan.

Kumpulan data akhir terdiri dari serangkaian contoh yang berisi instruksi input, sepasang jawaban benar dan salah, dan rantai penilaian. Model tersebut kemudian disetel ulang pada kumpulan pelatihan baru ini, menghasilkan model yang diperbarui untuk pengulangan berikutnya. Para peneliti menggunakan model Llama 3-70B-Instruct sebagai model awal untuk Self-Taught Evaluator mereka. Mereka menggunakan kumpulan data WildChat, yang berisi kumpulan besar instruksi tertulis manusia, dan memilih lebih dari 20.000 contoh dalam kategori penalaran.

Mereka juga menguji kumpulan data dan tugas lainnya, termasuk pemrograman dan masalah matematika kata. Mereka membiarkan proses pembelajaran sendiri untuk menghasilkan semua jawaban dan kumpulan pelatihan tanpa campur tangan manusia. Hasilnya menunjukkan bahwa Self-Taught Evaluator secara signifikan meningkatkan akurasi model dasar pada tolok ukur RewardBench yang populer, meningkat dari 75,4% menjadi 88,7% setelah lima pengulangan tanpa anotasi manusia. Kinerja ini mendekati, dan dalam beberapa kasus melampaui, model yang dilatih pada data yang diberi label oleh manusia, bahkan melampaui beberapa model frontier pribadi.

Mereka juga mengamati peningkatan serupa pada tolok ukur MT-Bench, yang mengevaluasi kinerja LLM dalam percakapan multi-giliran. Penelitian ini berkontribusi pada tren teknik yang semakin banyak yang menggunakan LLM dalam loop otomatis untuk peningkatan diri. Teknik-teknik ini dapat secara signifikan mengurangi upaya manual yang dibutuhkan untuk membuat LLM berkinerja tinggi, membuka jalan bagi pengembangan dan penerapan aplikasi berbasis AI yang lebih efisien dan terukur. Self-Taught Evaluator dapat bermanfaat bagi perusahaan yang memiliki sejumlah besar data korporat yang belum diberi label dan ingin menyempurnakan model pada data mereka sendiri tanpa perlu anotasi dan evaluasi manual yang ekstensif.

Ini juga dapat memberikan petunjuk tentang bagaimana Meta akan menggunakan kumpulan data yang kaya dari data yang dibuat pengguna yang belum diberi label untuk melatih dan meningkatkan modelnya saat ini dan di masa depan. Meskipun menjanjikan, Self-Taught Evaluator memang memiliki keterbatasan. Metode ini bergantung pada model awal yang disetel berdasarkan instruksi dan selaras dengan preferensi manusia. Dalam eksperimen mereka, para peneliti menggunakan model Mixtral 8x22B campuran-pakar sebagai model awal untuk membuat kumpulan pelatihan awal mereka.

Perusahaan perlu mempertimbangkan dengan cermat model awal dan dasar yang relevan dengan data dan tugas spesifik mereka. Penting juga untuk dicatat bahwa tolok ukur standar seringkali tidak mewakili semua kemampuan dan keterbatasan LLM. Pada saat yang sama, loop otomatis penuh yang hanya bergantung pada LLM untuk mengevaluasi sendiri output mereka dapat jatuh pada jalan pintas yang tidak berarti yang mengoptimalkan model untuk tolok ukur tetapi gagal pada tugas dunia nyata. Perusahaan harus melakukan uji manual mereka sendiri pada berbagai tahap proses pelatihan dan evaluasi untuk memastikan bahwa model tersebut memang semakin dekat dengan jenis kinerja yang mereka inginkan.