Model Bahasa AI, Membangun Menara di Pasir?



Model Bahasa AI, Membangun Menara di Pasir? - picture from: theregister - pibitek.biz - Meta

picture from: theregister


336-280
TL;DR
  • Para ahli mempertanyakan apakah LLM benar-benar "memahami" bahasa manusia.
  • LLM hanya sistem rekayasa yang meniru pola bahasa manusia, bukan benar-benar memahaminya.
  • Bahasa manusia dipengaruhi oleh faktor sosial dan emosional, tidak seperti LLM.

pibitek.biz -Sam Altman, bos besar OpenAI yang mengantongi dana miliaran dolar, dengan santai menyatakan bahwa dia tidak peduli berapa banyak uang yang dihabiskan untuk mencapai tujuan perusahaannya. "Apakah kita membakar $500 juta per tahun, atau $5 miliar, atau bahkan $50 miliar per tahun? Tidak masalah", katanya. "Yang penting kita bisa terus membayar tagihan dan mencapai tujuan kita: membangun AI umum". Pernyataan Altman ini mencerminkan tren yang terjadi di industri teknologi. Perusahaan-perusahaan besar seperti Microsoft, Google, dan Meta berlomba-lomba menginvestasikan dana besar dalam LLM.

Namun, di tengah euforia dan janji-janji tentang masa depan yang penuh dengan AI super canggih, beberapa ahli mulai mempertanyakan dasar-dasar dari teknologi ini. Ada kekhawatiran bahwa hype seputar LLM telah menciptakan ilusi. Para peneliti mempertanyakan apakah LLM benar-benar "memahami" bahasa manusia, atau hanya sekedar pandai meniru pola dan statistik dalam data yang diberikan. Para ilmuwan memperingatkan bahwa LLM mungkin hanya sebuah menara yang dibangun di atas pasir, di mana fondasinya tidak kuat dan rapuh.

Salah satu penelitian yang mengkritik LLM adalah "Large Models of What? Mistaking Engineering Achievements for Human Linguistic Agency". Penelitian ini menyoroti bagaimana industri LLM cenderung menggunakan bahasa manusia dalam konteks yang tidak tepat. Kata-kata seperti "memahami" dan "kemampuan bahasa" sering dikaitkan dengan mesin, padahal sebenarnya kata-kata ini merujuk pada kemampuan manusia. Para peneliti di balik studi ini menganggap bahwa LLM hanya sebuah sistem rekayasa yang canggih, dan tidak dapat dibandingkan dengan kemampuan manusia dalam memahami dan menggunakan bahasa.

Mereka memperingatkan bahwa menganggap LLM sebagai mesin yang memahami bahasa dapat menimbulkan berbagai masalah, termasuk kesalahan dalam pengaturan kebijakan dan regulasi. LLM dibangun dengan cara memakan data teks dalam jumlah besar, terutama dari internet. Mereka menguraikan teks menjadi token, dan menggunakan algoritma statistik untuk memprediksi hubungan antara token tersebut. Model ini diharapkan dapat menghasilkan teks yang masuk akal dan relevan sebagai tanggapan terhadap pertanyaan atau perintah yang diberikan.

Namun, terdapat beberapa asumsi yang tersembunyi dalam pendekatan ini. Pertama, ada asumsi bahwa bahasa merupakan sesuatu yang sempurna, stabil, dan dapat diukur. Asumsi ini menganggap bahwa bahasa merupakan entitas yang bisa dipisahkan dari konteks sosial dan budaya. Kedua, ada asumsi bahwa data yang digunakan untuk melatih LLM mewakili semua aspek penting dari bahasa manusia. Asumsi ini menghilangkan faktor-faktor lain yang mempengaruhi cara manusia menggunakan bahasa, seperti ekspresi wajah, nada suara, konteks sosial, dan pengalaman pribadi.

Alih-alih melihat bahasa sebagai "sesuatu yang dimodelkan", para peneliti menyarankan untuk melihat bahasa sebagai "sesuatu yang dilakukan". Bahasa merupakan suatu perilaku, yang berakar pada tubuh dan pengalaman manusia. Cara manusia menggunakan bahasa dipengaruhi oleh faktor-faktor fisik, sosial, dan emosional. Bahasa manusia juga bersifat rapuh dan tidak pasti. Ini merupakan hal yang positif, karena ketidaktentuan membuka peluang untuk kreativitas, dialektika, dan pencarian makna. LLM, di sisi lain, tidak mengalami ketidaktentuan atau ketidakpastian ini.