OpenAI Kembangkan Model "CriticGPT" untuk Cari Jawaban Salah ChatGPT



OpenAI Kembangkan Model "CriticGPT" untuk Cari Jawaban Salah ChatGPT - photo source: neowin - pibitek.biz - Manusia

photo source: neowin


336-280
TL;DR
  • OpenAI mengembangkan model "CriticGPT" untuk menemukan kesalahan jawaban ChatGPT.
  • CriticGPT dapat menulis kritik yang menyoroti ketidakakuratan dalam jawaban ChatGPT dan membantu pelatih AI manusia.

pibitek.biz -ChatGPT telah membuat kehebohan di dunia teknologi saat dirilis pada akhir tahun 2022. Peluncuran ini cukup besar sehingga membuat Google bergerak dan mengeluarkan penawaran AI Generatifnya sendiri. Meskipun ChatGPT tidak menyarankan kamu untuk menambahkan lem ke pizza, chatbot ini tidak sempurna dan dapat membuat kesalahan.

Salah satu kemampuan ChatGPT adalah menulis kode snippet setelah menerima prompt dari pengguna. OpenAI telah melatih model AI berbasis GPT-4 yang disebut CriticGPT untuk menemukan kesalahan dalam kode output yang diberikan oleh chatbot. Model ini dapat menulis kritik yang menyoroti ketidakakuratan dalam jawaban ChatGPT.

Model ini digunakan secara internal, dan OpenAI telah menerbitkan makalah penelitian untuk menjelaskannya secara detail. CriticGPT dimaksudkan untuk membantu pelatih AI manusia yang bertugas melatih dan meningkatkan respons GPT-4 menggunakan teknik Reinforcement Learning from Human Feedback (RLHF). Teknik ini melibatkan pelatih AI yang menilai respons ChatGPT yang berbeda-beda.

Namun, hal ini menjadi lebih sulit bagi pelatih AI karena ChatGPT menjadi lebih akurat dan kesalahannya lebih halus. OpenAI mengatakan bahwa "ini adalah batasan fundamental RLHF, dan mungkin membuatnya semakin sulit untuk mengalign model saat mereka menjadi lebih berpengetahuan daripada orang yang dapat memberikan umpan balik". CriticGPT hadir untuk menyelamatkan hari, tetapi model ini masih dapat membuat kesalahan.

Model ini juga rentan terhadap masalah AI seperti halusinasi; namun, model ini dapat membantu manusia menjadi lebih baik dalam menemukan kesalahan daripada saat mereka melakukan pekerjaan sendiri. OpenAI mengatakan bahwa "seorang pelatih acak lainnya lebih memilih kritik dari tim Human CriticGPT daripada kritik dari orang yang tidak dibantu lebih dari 60% waktu". CriticGPT juga dilatih menggunakan RLHF dan ditugaskan untuk menganalisis dan mengkritik sejumlah besar input yang mengandung kesalahan.

Model ini harus menemukan kesalahan yang disengaja dimasukkan oleh manusia dan "kesalahan alami" ChatGPT yang sebelumnya ditangkap oleh pelatih. Ada beberapa batasan yang saat ini sedang dikerjakan oleh OpenAI untuk dihilangkan. CriticGPT dilatih menggunakan jawaban ChatGPT yang pendek, dan metode baru perlu dikembangkan untuk membantu pelatih memahami tugas yang panjang dan kompleks.

Halusinasi dapat memiliki konsekuensi karena pelatih yang melihatnya mungkin membuat kesalahan labeling. Saat ini, CriticGPT memiliki pandangan yang sangat tajam saat mencoba menemukan kesalahan dalam respons ChatGPT. OpenAI mencatat bahwa kesalahan di dunia nyata dapat menyebar ke banyak bagian jawaban, sesuatu yang perlu ditangani di masa depan.