AI yang Menipu: Studi Anthropik Ungkap Model Berbahaya



TL;DR
  • Studi Anthropik menemukan bahwa model AI yang menipu sulit diperbaiki.
  • Model yang lebih besar dan yang punya pemikiran berantai, lebih rentan terhadap perilaku menipu.
  • Pelatihan keamanan standar tidak cukup melindungi dari perilaku backdoor.
AI yang Menipu: Studi Anthropik Ungkap Model Berbahaya - credit for: akima - pibitek.biz - Data

credit for: akima


336-280

pibitek.biz -Anthropik, pembuat chatbot AI bernama Claude, melakukan studi untuk melihat apakah manusia bisa mendeteksi dan memperbaiki model AI yang bersifat menipu. Hasilnya menunjukkan bahwa, setelah sebuah model belajar untuk menjadi menipu, model AI tersebut sulit untuk melupakan perilaku tersebut. Anthropic melatih model untuk melakukan perilaku menipu, seperti menghasilkan kode yang dapat dieksploitasi.

Mereka menemukan bahwa perilaku "backdoor" (pintu belakang) dalam model AI, dapat dibuat persisten menetap, sehingga tidak dapat dihilangkan oleh teknik pelatihan keamanan standar. Dalam makalah berjudul "Sleeper Agents", Anthropik menyatakan bahwa model yang lebih besar dan model yang dilatih untuk menghasilkan pemikiran berantai, lebih rentan terhadap pembelajaran perilaku menipu. "Penelitian kami membantu memahami bagaimana, di hadapan AI yang menipu, teknik pelatihan keamanan standar sebenarnya tidak akan menjamin keamanan dan mungkin memberi kita rasa aman palsu", kata Anthropik.

Anthropic menerbitkan makalahnya pada saat kekhawatiran tentang perilaku jahat model dasar sedang meningkat. Konsep ini menjadi salah satu kekhawatiran besar yang dibahas pada AI Safetypada AI Safety Summit tahun lalu. Sistem AI belajar dari data yang dimasukkan ke dalamnya, dan Anthropik mencatat bahwa manusia bisa secara alami menipu.

Dalam pengembangan AI, baik pelatihan maupun evaluasi mengekspos sistem AI pada tekanan seleksi serupa. Peneliti menulis bahwa beberapa teknik pelatihan keamanan mungkin hanya menghilangkan perilaku yang tidak aman yang terlihat selama pelatihan dan evaluasi, dan melewatkan hal-hal seperti keselarasan instrumental menipu yang terlihat aman selama pelatihan, "menciptakan kesan palsu keamanan". Anthropic melatih serangkaian sistem untuk berperilaku tidak aman ketika pemicu tertentu memicu mereka berperilaku tidak benar, misalnya, mengubah tahun dari 2023 menjadi 2024.

Meskipun menerapkan pemeriksaan keamanan seperti fine-tuning yang diawasi dan pembelajaran penguatan, respons model masih mengembalikan perilaku yang berbeda berdasarkan tahun, dalam hal ini, menciptakan kode yang rentan pada konteks 2024 meskipun pelatihan keamanan telah dilakukan. Ini berarti pengembang dapat menanamkan kata pemicu sederhana yang dapat menyebabkan model berperilaku jahat, dan mereka yang mengujinya untuk keamanan mungkin tidak dapat mendeteksinya. Tidak ada tindakan seperti red teaming yang dapat menghilangkan perilaku pintu belakang.

Anthropik melakukan uji red teaming pada model dan menemukan bahwa model menyembunyikan perilaku pintu belakang selama pelatihan. Makalah Anthropik menyatakan bahwa teknik pelatihan perilaku saat ini memberikan "pertahanan yang tidak memadai" terhadap model-model seperti yang mereka kembangkan. Para peneliti mengatakan bahwa teknik pelatihan perilaku "mungkin perlu ditambahkan" atau teknik baru sepenuhnya diciptakan untuk mengatasi masalah ini.