Air Canada Ganti Chatbot LLM dengan RAG: RAG Lebih Baik untuk Konten Fakta



TL;DR
  • Air Canada kalah gugatan karena chatbot salah kasih info.
  • Chatbot pakai LLM yang sering ngaco dan nggak update.
  • RAG lebih bagus karena bisa cek sumber dan nggak ngawur.
Air Canada Ganti Chatbot LLM dengan RAG: RAG Lebih Baik untuk Konten Fakta - the image via: hackaday - pibitek.biz - Facebook

the image via: hackaday


336-280

pibitek.biz - Air Canada baru-baru ini menjadi berita karena hasil dari kasus Moffatt vs. Air Canada, di mana Air Canada dipaksa untuk membayar restitusi kepada Mr. Moffatt setelah yang terakhir merasa dirugikan oleh saran yang diberikan oleh chatbot di situs web Air Canada mengenai kebijakan tarif duka cita.

Ketika Mr. Moffatt menanyakan apakah dia bisa mengajukan tarif duka cita setelah kembali dari penerbangan, chatbot tersebut mengatakan bahwa hal ini mungkin dilakukan, meskipun tautan yang diberikannya ke halaman kebijakan tarif duka resmi mengatakan sebaliknya. Aspek terpenting dari kasus ini adalah bahwa chatbot tersebut menggunakan model LLM (Large Language Model) yang diduga menggunakan informasi yang lebih umum daripada informasi khusus dari sumber yang telah diverifikasi.

Hal ini menimbulkan pertanyaan tentang detail teknis chatbot ini yang telah diterapkan oleh Air Canada di situs webnya. Sebagai catatan, chatbot pada umumnya menggunakan RAG (Retrieval Augmented Generation) daripada LLM murni. Dalam RAG, chatbot mengambil informasi faktual dari sumber dokumen yang telah diverifikasi.

Penggunaan LLM dan harapannya untuk menjawab pertanyaan secara jujur memiliki beberapa kelemahan karena cara kerja LLM itu sendiri. LLM bekerja berdasarkan kemungkinan kata dan frase tertentu muncul secara berurutan, sehingga tidak ada kebenaran atau kebohongan yang terdapat pada parameter LLM tersebut. Hal ini sering menyebabkan situasi yang tidak nyaman dengan chatbot seperti ChatGPT, di mana terlihat bahwa sistem tersebut berbohong, mengubah pendapatnya, dan tidak konsisten dalam pernyataan-pernyataan fakta.

Untuk mengatasi masalah ini, perusahaan-perusahaan yang menggunakan LLM seperti OpenAI biasanya akan menjalankan ulang pertanyaan yang tidak mendapatkan respon positif dari pengguna, dengan beberapa perubahan untuk mendapatkan respon yang lebih diharapkan oleh pengguna. Dapat dikatakan bahwa untuk mengetahui apa yang benar dan salah, diperlukan tingkat kecerdasan yang tidak dapat dimiliki oleh LLM. Dalam kasus Air Canada, tampak jelas bahwa chatbot dengan yakin menyatakan kepada Mr. Moffatt antara lain hal-hal berikut: Di sini, bagian "tarif duka cita" yang digarisbawahi mengarah ke kebijakan resmi Air Canada, namun chatbot tidak mengutip jawaban ini dari tautan dokumen kebijakan resmi. Penjelasan yang mungkin adalah bahwa model yang digunakan dilatih dengan teks yang salah, atau dokumen kebijakan internal yang salah diakses, tetapi elemen "90 hari" sepenuhnya tidak ada dalam kebijakan maskapai ini berdasarkan informasi yang dapat diketahui.

Yang juga menarik adalah bahwa Air Canada telah menghapus chatbot dari situsnya, yang menunjukkan bahwa mereka kemungkinan tidak menggunakan RAG. LLM memiliki banyak kelemahan ketika digunakan untuk informasi faktual, di luar kelemahan yang telah disebutkan di atas. LLM juga terbatas dalam menjaga informasi terbaru, karena informasi baru harus diintegrasikan sebagai parameter yang terlatih dengan baik, sementara data lama harus dihapus atau diperbarui.

Mungkin perlu melatih model baru dengan data pelatihan yang segar, yang semuanya membuat chatbot berbasis LLM menjadi komputasional dan finansial mahal untuk dijalankan. Dalam artikel yang disusun oleh IBM Research, mereka membahas banyak keuntungan dan kelemahan ini dan mengapa RAG menjadi pilihan yang lebih baik untuk situasi di mana kamu tidak hanya ingin dapat mempercayai jawaban yang diberikan, tetapi juga ingin dapat memeriksa sumbernya. Pendekatan ini mengurangi ketergantungan pada LLM dan menjalankan sistem lebih seperti mesin pencari internet tradisional, meskipun LLM tetap digunakan untuk memberikan variasi teks dan ilusi percakapan yang koheren karena fleksibilitasnya lebih besar daripada chatbot yang menggunakan skrip statis.

Ide penggunaan metode yang lebih tradisional dengan LLM untuk menjaga agar LLM tetap pada jalurnya pertama kali diajukan oleh Meta (dulu Facebook) dalam sebuah makalah pada tahun 2020, di mana mereka menggunakan alat bantu pencari berbasis jaringan saraf untuk mengakses informasi dalam indeks vektor Wikipedia. Pendekatan ini mendukung berbagai jenis pertanyaan, termasuk verifikasi fakta dan pembuatan pertanyaan trivia. Komponen pencari hanya perlu dilatih untuk dapat menemukan informasi tertentu dalam dokumen yang telah disiapkan, yang segera menambah kemampuan untuk memverifikasi informasi yang diberikan menggunakan dokumen-dokumen tersebut daripada hanya mengandalkan model parameter yang sangat kompleks.

Dalam contoh yang diberikan oleh IBM, mereka menggambarkan skenario di mana seorang karyawan mengajukan beberapa pertanyaan kepada chatbot perusahaan, yang kemudian mengakses file SDM karyawan, memeriksa hari libur yang tersedia, mencocokkan permintaan dengan kebijakan perusahaan, dan menggabungkan informasi tersebut menjadi jawaban. Tentu saja, dalam makalah Facebook dicatat bahwa LLM yang ditingkatkan dengan RAG masih mampu "berkhayal" dan perlu "penyetelan halus" untuk menjaganya tetap pada jalur yang benar. Namun, keuntungan dari menggunakan RAG adalah bahwa sumber dapat disediakan dan ditautkan, sehingga karyawan tersebut dapat memeriksa sumber tersebut untuk memverifikasi kebenaran jawaban yang diberikan.

Bagian yang menyulitkan dengan chatbot adalah bahwa kecuali jika mereka telah diprogram dengan hati-hati oleh manusia (dengan validasi QA), mereka cenderung membuat kesalahan. Dalam chatbot berbasis LLM murni, hal ini tidak diragukan lagi, karena respons yang diberikan berkisar antara masuk akal hingga delusional. Dengan grounding LLM dengan RAG, jumlah omong kosong yang dibuat berkurang, tetapi dalam ketiadaan kecerdasan dan pemahaman apa yang dihasilkan algoritma sebagai respons, tidak ada akuntabilitas yang bisa diberikan.

Dalam kasus Air Canada, tanggung jawab (dan kewajiban) beralih kepada entitas yang memutuskan untuk menempatkan chatbot, seperti yang ditunjukkan dengan jelas dalam kasus Moffatt vs. Air Canada. Pada akhirnya, tidak peduli seberapa canggih atau kompleks sistem dan algoritma tersebut, tanggung jawab tetap ada pada unsur manusia yang bertanggung jawab.

Seperti yang dinyatakan oleh hakim dalam putusan Civil Resolution Tribunal: "Sudah jelas bagi Air Canada bahwa mereka bertanggung jawab atas semua informasi di situs web mereka. Tidak ada perbedaan apakah informasi tersebut berasal dari halaman statis atau chatbot". Mengingat kasus seperti ini, sebuah perusahaan seharusnya mempertanyakan manfaat apa yang bisa diperoleh dari memiliki fitur chatbot di situs web publik mereka daripada memiliki fungsi pencarian yang sangat mampu yang masih dapat menggunakan pemrosesan bahasa alami untuk memberikan hasil pencarian yang lebih relevan, tetapi dengan sumber jawaban yang ditulis dan divalidasi oleh manusia.