StreamingLLM, MIT Bikin Chatbot Makin Jago Ngobrol



TL;DR
  • StreamingLLM, solusi MIT buat chatbot ngobrol lama.
  • Pakai Sliding Cache, simpan data kunci dan attention sink.
  • Model jadi stabil, cepat, dan dinamis.
StreamingLLM, MIT Bikin Chatbot Makin Jago Ngobrol - picture owner: aibusiness - pibitek.biz - Nvidia

picture owner: aibusiness


336-280

pibitek.biz - Chatbot biasanya makin lama ngobrol, makin jelek jawabannya. Tapi, tim peneliti dari MIT punya solusi biar chatbot kayak ChatGPT atau Gemini bisa ngobrol terus tanpa kualitasnya turun. Solusinya namanya StreamingLLM, sebuah kerangka kerja yang mengubah cara model chatbot menyimpan memori percakapan. Model chatbot pakai sesuatu yang namanya Key-value (KV) Cache buat nyimpen data percakapan. KV Cache ini bikin peta perhatian yang nunjukin hubungan antara kata-kata yang dipakai. Tapi, KV Cache ini punya batas kapasitas, jadi kalo udah penuh, dia bakal buang data lama.

Peneliti MIT punya ide buat bikin Sliding Cache, yaitu KV Cache yang bisa buang data yang kurang penting tapi tetep nyimpen data kunci. Dengan begitu, chatbot bisa ngobrol sama pengguna tanpa kualitasnya anjlok. Dalam makalah StreamingLLM, peneliti bilang bahwa solusi ini bikin model kayak Llama 2 dan Falcon bisa stabil walaupun percakapannya udah lewat empat juta kata.

Bahkan, metode ini bikin model bisa jawab lebih dari 22 kali lebih cepat. "Dengan bikin chatbot yang bisa ngobrol terus sama kita, dan yang bisa jawab sesuai dengan percakapan kita sebelumnya, kita bisa pakai chatbot ini buat aplikasi baru", kata Guangxuan Xiao, penulis utama makalah StreamingLLM, ke MIT News. Peneliti juga nemuin bahwa input pertama dari sebuah pertanyaan itu paling penting.

Kalo input ini ilang pas KV Cache penuh, itu bikin model gagal ngobrol lama. Tapi, kalo input ini tetep ada, kualitasnya tetep bagus. Mereka sebut fenomena ini "attention sink".

Cukup dengan empat input awal, chatbot yang pakai Sliding Cache bisa ngobrol terus tanpa kualitasnya turun. Malah, kualitasnya jadi optimal. Peneliti juga nemuin bahwa nambahin token tempat buat attention sink pas pra-latih bisa bikin kinerja model makin baik.

Song Han, anggota MIT-IBM Watson AI Lab dan ilmuwan terkemuka Nvidia, bilang ke MIT News: "Kita butuh attention sink, dan model memutuskan buat pakai token pertama sebagai attention sink karena dia bisa keliatan sama semua token lain". "Kita nemuin bahwa kita harus tetep nyimpen attention sink di KV Cache biar modelnya tetep dinamis". Kamu bisa coba StreamingLLM lewat perpustakaan optimasi LLM Nvidia, TensorRT-LLM.