pibitek.biz - Chatbot biasanya makin lama ngobrol, makin jelek jawabannya. Tapi, tim peneliti dari MIT punya solusi biar chatbot kayak ChatGPT atau Gemini bisa ngobrol terus tanpa kualitasnya turun. Solusinya namanya StreamingLLM, sebuah kerangka kerja yang mengubah cara model chatbot menyimpan memori percakapan. Model chatbot pakai sesuatu yang namanya Key-value (KV) Cache buat nyimpen data percakapan. KV Cache ini bikin peta perhatian yang nunjukin hubungan antara kata-kata yang dipakai. Tapi, KV Cache ini punya batas kapasitas, jadi kalo udah penuh, dia bakal buang data lama.
2 – Peneliti Bikin Worm Malware yang Racuni ChatGPT dan Gemini 2 – Peneliti Bikin Worm Malware yang Racuni ChatGPT dan Gemini
3 – Dell Naik Daun Di Wall Street Berkat AI 3 – Dell Naik Daun Di Wall Street Berkat AI 300x600
Peneliti MIT punya ide buat bikin Sliding Cache, yaitu KV Cache yang bisa buang data yang kurang penting tapi tetep nyimpen data kunci. Dengan begitu, chatbot bisa ngobrol sama pengguna tanpa kualitasnya anjlok. Dalam makalah StreamingLLM, peneliti bilang bahwa solusi ini bikin model kayak Llama 2 dan Falcon bisa stabil walaupun percakapannya udah lewat empat juta kata.
Bahkan, metode ini bikin model bisa jawab lebih dari 22 kali lebih cepat. "Dengan bikin chatbot yang bisa ngobrol terus sama kita, dan yang bisa jawab sesuai dengan percakapan kita sebelumnya, kita bisa pakai chatbot ini buat aplikasi baru", kata Guangxuan Xiao, penulis utama makalah StreamingLLM, ke MIT News. Peneliti juga nemuin bahwa input pertama dari sebuah pertanyaan itu paling penting.
Kalo input ini ilang pas KV Cache penuh, itu bikin model gagal ngobrol lama. Tapi, kalo input ini tetep ada, kualitasnya tetep bagus. Mereka sebut fenomena ini "attention sink".
Cukup dengan empat input awal, chatbot yang pakai Sliding Cache bisa ngobrol terus tanpa kualitasnya turun. Malah, kualitasnya jadi optimal. Peneliti juga nemuin bahwa nambahin token tempat buat attention sink pas pra-latih bisa bikin kinerja model makin baik.
Song Han, anggota MIT-IBM Watson AI Lab dan ilmuwan terkemuka Nvidia, bilang ke MIT News: "Kita butuh attention sink, dan model memutuskan buat pakai token pertama sebagai attention sink karena dia bisa keliatan sama semua token lain". "Kita nemuin bahwa kita harus tetep nyimpen attention sink di KV Cache biar modelnya tetep dinamis". Kamu bisa coba StreamingLLM lewat perpustakaan optimasi LLM Nvidia, TensorRT-LLM.