Air Canada Ganti Chatbot LLM dengan RAG: RAG Lebih Baik untuk Konten Fakta

https://www.facebook.com/pibitek

March 7, 2024 Adie

TL;DR

Air Canada kalah gugatan karena chatbot salah kasih info.
Chatbot pakai LLM yang sering ngaco dan nggak update.
RAG lebih bagus karena bisa cek sumber dan nggak ngawur.

the image via: hackaday

pibitek.biz - Air Canada baru-baru ini menjadi berita karena hasil dari kasus Moffatt vs. Air Canada, di mana Air Canada dipaksa untuk membayar restitusi kepada Mr. Moffatt setelah yang terakhir merasa dirugikan oleh saran yang diberikan oleh chatbot di situs web Air Canada mengenai kebijakan tarif duka cita.

Ketika Mr. Moffatt menanyakan apakah dia bisa mengajukan tarif duka cita setelah kembali dari penerbangan, chatbot tersebut mengatakan bahwa hal ini mungkin dilakukan, meskipun tautan yang diberikannya ke halaman kebijakan tarif duka resmi mengatakan sebaliknya. Aspek terpenting dari kasus ini adalah bahwa chatbot tersebut menggunakan model LLM (Large Language Model) yang diduga menggunakan informasi yang lebih umum daripada informasi khusus dari sumber yang telah diverifikasi.

Hal ini menimbulkan pertanyaan tentang detail teknis chatbot ini yang telah diterapkan oleh Air Canada di situs webnya. Sebagai catatan, chatbot pada umumnya menggunakan RAG (Retrieval Augmented Generation) daripada LLM murni. Dalam RAG, chatbot mengambil informasi faktual dari sumber dokumen yang telah diverifikasi.

Penggunaan LLM dan harapannya untuk menjawab pertanyaan secara jujur memiliki beberapa kelemahan karena cara kerja LLM itu sendiri. LLM bekerja berdasarkan kemungkinan kata dan frase tertentu muncul secara berurutan, sehingga tidak ada kebenaran atau kebohongan yang terdapat pada parameter LLM tersebut. Hal ini sering menyebabkan situasi yang tidak nyaman dengan chatbot seperti ChatGPT, di mana terlihat bahwa sistem tersebut berbohong, mengubah pendapatnya, dan tidak konsisten dalam pernyataan-pernyataan fakta.

Untuk mengatasi masalah ini, perusahaan-perusahaan yang menggunakan LLM seperti OpenAI biasanya akan menjalankan ulang pertanyaan yang tidak mendapatkan respon positif dari pengguna, dengan beberapa perubahan untuk mendapatkan respon yang lebih diharapkan oleh pengguna. Dapat dikatakan bahwa untuk mengetahui apa yang benar dan salah, diperlukan tingkat kecerdasan yang tidak dapat dimiliki oleh LLM. Dalam kasus Air Canada, tampak jelas bahwa chatbot dengan yakin menyatakan kepada Mr. Moffatt antara lain hal-hal berikut: Di sini, bagian "tarif duka cita" yang digarisbawahi mengarah ke kebijakan resmi Air Canada, namun chatbot tidak mengutip jawaban ini dari tautan dokumen kebijakan resmi. Penjelasan yang mungkin adalah bahwa model yang digunakan dilatih dengan teks yang salah, atau dokumen kebijakan internal yang salah diakses, tetapi elemen "90 hari" sepenuhnya tidak ada dalam kebijakan maskapai ini berdasarkan informasi yang dapat diketahui.

Yang juga menarik adalah bahwa Air Canada telah menghapus chatbot dari situsnya, yang menunjukkan bahwa mereka kemungkinan tidak menggunakan RAG. LLM memiliki banyak kelemahan ketika digunakan untuk informasi faktual, di luar kelemahan yang telah disebutkan di atas. LLM juga terbatas dalam menjaga informasi terbaru, karena informasi baru harus diintegrasikan sebagai parameter yang terlatih dengan baik, sementara data lama harus dihapus atau diperbarui.

Mungkin perlu melatih model baru dengan data pelatihan yang segar, yang semuanya membuat chatbot berbasis LLM menjadi komputasional dan finansial mahal untuk dijalankan. Dalam artikel yang disusun oleh IBM Research, mereka membahas banyak keuntungan dan kelemahan ini dan mengapa RAG menjadi pilihan yang lebih baik untuk situasi di mana kamu tidak hanya ingin dapat mempercayai jawaban yang diberikan, tetapi juga ingin dapat memeriksa sumbernya. Pendekatan ini mengurangi ketergantungan pada LLM dan menjalankan sistem lebih seperti mesin pencari internet tradisional, meskipun LLM tetap digunakan untuk memberikan variasi teks dan ilusi percakapan yang koheren karena fleksibilitasnya lebih besar daripada chatbot yang menggunakan skrip statis.

Ide penggunaan metode yang lebih tradisional dengan LLM untuk menjaga agar LLM tetap pada jalurnya pertama kali diajukan oleh Meta (dulu Facebook) dalam sebuah makalah pada tahun 2020, di mana mereka menggunakan alat bantu pencari berbasis jaringan saraf untuk mengakses informasi dalam indeks vektor Wikipedia. Pendekatan ini mendukung berbagai jenis pertanyaan, termasuk verifikasi fakta dan pembuatan pertanyaan trivia. Komponen pencari hanya perlu dilatih untuk dapat menemukan informasi tertentu dalam dokumen yang telah disiapkan, yang segera menambah kemampuan untuk memverifikasi informasi yang diberikan menggunakan dokumen-dokumen tersebut daripada hanya mengandalkan model parameter yang sangat kompleks.

Dalam contoh yang diberikan oleh IBM, mereka menggambarkan skenario di mana seorang karyawan mengajukan beberapa pertanyaan kepada chatbot perusahaan, yang kemudian mengakses file SDM karyawan, memeriksa hari libur yang tersedia, mencocokkan permintaan dengan kebijakan perusahaan, dan menggabungkan informasi tersebut menjadi jawaban. Tentu saja, dalam makalah Facebook dicatat bahwa LLM yang ditingkatkan dengan RAG masih mampu "berkhayal" dan perlu "penyetelan halus" untuk menjaganya tetap pada jalur yang benar. Namun, keuntungan dari menggunakan RAG adalah bahwa sumber dapat disediakan dan ditautkan, sehingga karyawan tersebut dapat memeriksa sumber tersebut untuk memverifikasi kebenaran jawaban yang diberikan.

Bagian yang menyulitkan dengan chatbot adalah bahwa kecuali jika mereka telah diprogram dengan hati-hati oleh manusia (dengan validasi QA), mereka cenderung membuat kesalahan. Dalam chatbot berbasis LLM murni, hal ini tidak diragukan lagi, karena respons yang diberikan berkisar antara masuk akal hingga delusional. Dengan grounding LLM dengan RAG, jumlah omong kosong yang dibuat berkurang, tetapi dalam ketiadaan kecerdasan dan pemahaman apa yang dihasilkan algoritma sebagai respons, tidak ada akuntabilitas yang bisa diberikan.

Dalam kasus Air Canada, tanggung jawab (dan kewajiban) beralih kepada entitas yang memutuskan untuk menempatkan chatbot, seperti yang ditunjukkan dengan jelas dalam kasus Moffatt vs. Air Canada. Pada akhirnya, tidak peduli seberapa canggih atau kompleks sistem dan algoritma tersebut, tanggung jawab tetap ada pada unsur manusia yang bertanggung jawab.

Seperti yang dinyatakan oleh hakim dalam putusan Civil Resolution Tribunal: "Sudah jelas bagi Air Canada bahwa mereka bertanggung jawab atas semua informasi di situs web mereka. Tidak ada perbedaan apakah informasi tersebut berasal dari halaman statis atau chatbot". Mengingat kasus seperti ini, sebuah perusahaan seharusnya mempertanyakan manfaat apa yang bisa diperoleh dari memiliki fitur chatbot di situs web publik mereka daripada memiliki fungsi pencarian yang sangat mampu yang masih dapat menggunakan pemrosesan bahasa alami untuk memberikan hasil pencarian yang lebih relevan, tetapi dengan sumber jawaban yang ditulis dan divalidasi oleh manusia.

Lenovo ThinkPad X1 Carbon Terbaru, Tren Laptop AI 2024Lenovo ThinkPad X1 Carbon Terbaru, Tren Laptop AI 2024

Risiko • Tren penggunaan AI semakin meluas pada berbagai perangkat elektronik. Mulai dari kamera keamanan dalam ruangan hingga Humane AI Pin yang sedang menjadi perbincangan. Dan sekarang, dengan peluncuran Lenovo ThinkPad X1 Carbon Gen 12 yang baru, AI siap membuat gebrakan di industri laptop. Tentu saja, keberadaan AI pada laptop bukanlah hal baru.

Peran AI dan ChatGPT di India yang Penuh Asa - credit: cultinfos - pibitek.biz - Pangsa Pasar

Peran AI dan ChatGPT di India yang Penuh AsaPeran AI dan ChatGPT di India yang Penuh Asa

Web – AI dan ChatGPT merevolusi industri dan memungkinkan bisnis membuat keputusan yang lebih baik. Penggunaan AI di India terus meningkat, mengubah cara hidup dan bekerja.

IBM Rilis SSD Terbaru yang Diperkuat AI untuk Lawan Ransomware - image from: tomshardware - pibitek.biz - Deteksi

IBM Rilis SSD Terbaru yang Diperkuat AI untuk Lawan RansomwareIBM Rilis SSD Terbaru yang Diperkuat AI untuk Lawan Ransomware

Backup — IBM rilis SSD dengan AI untuk lawan ransomware. AI bisa deteksi dan pulihkan data dalam satu menit. Teknologi ini untuk pengguna enterprise dan profesional.

Microsoft Kalahkan Apple dalam Kapitalisasi Pasar - photo from: gizchina - pibitek.biz - Keamanan Siber

Microsoft Kalahkan Apple dalam Kapitalisasi PasarMicrosoft Kalahkan Apple dalam Kapitalisasi Pasar

Microsoft jadi perusahaan terbesar, lewati Apple. Microsoft sukses dengan strategi cloud, Apple kuat dengan hardware. Microsoft dan Apple tetap bersaing, hadapi tantangan dan peluang. (And.1902)

Serangan Hacker Pakai Bug Zero-Day di Microsoft - picture source: darkreading - pibitek.biz - Microsoft Outlook

Serangan Hacker Pakai Bug Zero-Day di Microsoft • MicrosoftSerangan Hacker Pakai Bug Zero-Day di Microsoft • Microsoft

Hacker grup Water Hydra menggunakan bug zero-day untuk bobol sistem Windows. Bug ini ada di update keamanan Microsoft bulan Februari. **Bug ini ada di semua versi

Google Rilis VideoPoet, AI Generatif Khusus Video - credit for: thebase - pibitek.biz - Data

Google Rilis VideoPoet, AI Generatif Khusus VideoGoogle Rilis VideoPoet, AI Generatif Khusus Video

OpenAI – Google Research mengumumkan VideoPoet, sebuah LLM yang menghasilkan video. VideoPoet dilatih dengan 2 triliun token data teks, audio, gambar, dan video. VideoPoet dapat melakukan berbagai tugas generatif nol-shot, seperti teks ke video dan gambar ke

Startup AI Minggu Ini: FTX Jual Saham Anthropic - the image via: aibusiness - pibitek.biz - Suara

Startup AI Minggu Ini: FTX Jual Saham AnthropicStartup AI Minggu Ini: FTX Jual Saham Anthropic

FTX mau jual saham di Anthropic, Claude bikin AI. Lima startup AI dapat dana baru, berbagai bidang. Startup AI minggu ini, berita terbaru dan menarik. {Adi Startup AI}

Meta Lindungi Remaja dari Ancaman Sextortion - image owner: readwrite - pibitek.biz - Bahasa Inggris

Meta Lindungi Remaja dari Ancaman Sextortion — TeknologiMeta Lindungi Remaja dari Ancaman Sextortion — Teknologi

Meta meningkatkan perlindungan remaja dari sextortion dengan alat Take It Down. Alat Take It Down memungkinkan pengguna membuat sidik jari digital dari gambar intim mereka. Meta juga merilis kampanye global untuk edukasi dan pencegahan sextortion.

Useful Lists

by Dates :	17 Dec 202317 Dec 2023 24 Jan 202424 Jan 2024 15 Feb 202415 Feb 2024 19 Feb 202419 Feb 2024 11 Mar 202411 Mar 2024
by Authors :	Amalia NopiliantiAmalia Nopilianti Andri Mario AndriyantoAndri Mario Andriyanto Dika Satria PrasetyantaDika Satria Prasetyanta Adinda OktavianiAdinda Oktaviani
by Tags :	#claude#claude #fitur#fitur #llm#llm

Air Canada Ganti Chatbot LLM dengan RAG: RAG Lebih Baik untuk Konten Fakta

Related Post

Useful Lists