Model Bahasa Kecil: Masa Depan AI?



Model Bahasa Kecil: Masa Depan AI? - photo origin: makeuseof - pibitek.biz - Rilis

photo origin: makeuseof


336-280
TL;DR
  • Model bahasa kecil dilatih dengan data pelatihan yang lebih kecil dan kualitas lebih tinggi.
  • Perusahaan besar melirik model bahasa kecil karena membutuhkan daya komputasi yang lebih rendah.

pibitek.biz -ChatGPT, buatan OpenAI, meledak di dunia. Sejak itu, banyak perusahaan lain juga merilis LLM mereka sendiri. Tapi sekarang, banyak perusahaan mulai melirik model bahasa kecil (SLM). Apa itu model bahasa kecil? Sederhananya, model bahasa kecil adalah model AI yang punya parameter lebih sedikit dibanding LLM. Parameter bisa dibayangkan sebagai nilai yang dipelajari model selama proses pelatihan. Model bahasa kecil, seperti LLM, bisa menghasilkan teks dan melakukan tugas lain. Bedanya, model bahasa kecil dilatih menggunakan dataset yang lebih kecil, punya parameter lebih sedikit, dan butuh daya komputasi yang lebih rendah untuk dilatih dan dijalankan.

Model bahasa kecil fokus pada fungsi-fungsi inti. Karena ukurannya yang kecil, mereka bisa dijalankan di berbagai perangkat, termasuk perangkat yang tidak punya spesifikasi tinggi, seperti ponsel pintar. Sebagai contoh, Google punya Nano, model bahasa kecil yang dirancang khusus untuk dijalankan di ponsel pintar. Ukurannya yang kecil memungkinkan Nano untuk dijalankan secara lokal, baik dengan koneksi internet atau tanpa koneksi internet. Selain Nano, banyak model bahasa kecil lain yang dikembangkan oleh perusahaan terkemuka di bidang AI.

Beberapa model bahasa kecil populer antara lain Phi-3 dari Microsoft, GPT-4o mini dari OpenAI, Claude 3 Haiku dari Anthropic, Llama 3 dari Meta, dan Mixtral 8x7B dari Mistral AI. Banyak model yang awalnya dianggap LLM, ternyata adalah model bahasa kecil. Banyak perusahaan sekarang menerapkan pendekatan multi-model, dengan merilis berbagai model bahasa, baik LLM maupun model bahasa kecil. Contohnya, GPT-4 memiliki berbagai versi, termasuk GPT-4, GPT-4o (Omni), dan GPT-4o mini. Perbedaan utama antara model bahasa kecil dan LLM terletak pada ukuran model, yang diukur dalam parameter.

Saat ini, belum ada konsensus di industri AI tentang batasan jumlah parameter untuk menentukan model mana yang termasuk model bahasa kecil dan mana yang termasuk LLM. Namun, secara umum, model bahasa kecil memiliki jutaan hingga miliaran parameter, sedangkan LLM memiliki lebih banyak parameter, bahkan mencapai triliunan. Misalnya, GPT-3, yang dirilis pada tahun 2020, memiliki 175 miliar parameter (dan model GPT-4 dikabarkan memiliki sekitar 1,76 triliun parameter), sedangkan Phi-3-mini, Phi-3-small, dan Phi-3-medium dari Microsoft, yang dirilis pada tahun 2024, masing-masing memiliki 3,8, 7, dan 14 miliar parameter.

Faktor lain yang membedakan model bahasa kecil dan LLM adalah jumlah data yang digunakan untuk pelatihan. Model bahasa kecil dilatih menggunakan data yang lebih sedikit, sedangkan LLM menggunakan dataset yang sangat besar. Perbedaan ini juga memengaruhi kemampuan model dalam menyelesaikan tugas yang kompleks. Karena menggunakan data pelatihan yang lebih besar, LLM lebih cocok untuk menyelesaikan berbagai jenis tugas kompleks yang memerlukan penalaran tingkat tinggi. Sementara itu, model bahasa kecil lebih cocok untuk tugas yang lebih sederhana.

Model bahasa kecil memang menggunakan data pelatihan yang lebih sedikit, tetapi kualitas data yang digunakan harus lebih tinggi untuk mencapai kemampuan yang sebanding dengan LLM dalam ukuran yang lebih kecil. Untuk sebagian besar kasus penggunaan, model bahasa kecil lebih siap untuk menjadi model utama yang digunakan oleh perusahaan dan konsumen untuk melakukan berbagai tugas. Memang, LLM memiliki keunggulannya dan lebih cocok untuk beberapa kasus penggunaan, seperti menyelesaikan tugas yang kompleks.

Namun, model bahasa kecil adalah masa depan untuk sebagian besar kasus penggunaan karena beberapa alasan. Model bahasa kecil membutuhkan data pelatihan yang lebih sedikit dibanding LLM. Hal ini membuat model bahasa kecil menjadi pilihan yang lebih layak bagi individu dan perusahaan kecil dan menengah yang memiliki keterbatasan data pelatihan, dana, atau keduanya. LLM membutuhkan data pelatihan yang sangat banyak dan, akibatnya, membutuhkan sumber daya komputasi yang besar baik untuk pelatihan maupun pengoperasian.

Sebagai contoh, CEO OpenAI, Sam Altman, mengonfirmasi bahwa mereka menghabiskan lebih dari $100 juta untuk melatih GPT-4, seperti yang dikatakannya dalam sebuah acara di MIT (menurut Wired). Contoh lain adalah OPT-175B, LLM milik Meta. Meta mengatakan bahwa model ini dilatih menggunakan 992 GPU NVIDIA A100 80GB, yang harganya sekitar $10.000 per unit, menurut CNBC. Dengan demikian, biaya pelatihan mencapai sekitar $9 juta, belum termasuk biaya lain seperti energi, gaji, dan sebagainya. Dengan biaya yang besar seperti itu, tidak mungkin bagi perusahaan kecil dan menengah untuk melatih LLM.

Sebaliknya, model bahasa kecil memiliki hambatan yang lebih rendah dalam hal sumber daya dan biaya operasional, sehingga lebih banyak perusahaan yang akan mengadopsinya. Performa adalah area lain di mana model bahasa kecil unggul atas LLM karena ukurannya yang lebih kecil. Model bahasa kecil memiliki latensi yang lebih rendah dan lebih cocok untuk skenario di mana respons yang lebih cepat dibutuhkan, seperti dalam aplikasi real-time. Misalnya, respons yang lebih cepat lebih disukai dalam sistem respons suara seperti asisten digital.

Pelaksanaan di perangkat (akan dibahas lebih lanjut nanti) juga berarti bahwa permintaan tidak perlu melakukan perjalanan ke server online dan kembali untuk menanggapi permintaan, sehingga menghasilkan respons yang lebih cepat. Dalam hal AI generatif, satu hal tetap konsisten: sampah masuk, sampah keluar. LLM saat ini dilatih menggunakan dataset besar yang berasal dari internet. Karena itu, LLM mungkin tidak akurat dalam semua situasi. Ini adalah salah satu masalah dengan ChatGPT dan model serupa, dan mengapa kita tidak boleh percaya begitu saja semua yang dikatakan oleh chatbot AI.

Di sisi lain, model bahasa kecil dilatih menggunakan data berkualitas lebih tinggi daripada LLM, sehingga memiliki akurasi yang lebih tinggi. Model bahasa kecil juga bisa disetel lebih lanjut dengan pelatihan yang terfokus pada tugas atau domain tertentu, sehingga meningkatkan akurasi di area tersebut dibandingkan dengan model yang lebih besar dan lebih umum. Model bahasa kecil membutuhkan daya komputasi yang lebih sedikit dibandingkan LLM, sehingga ideal untuk kasus komputasi tepi. Model bahasa kecil bisa dijalankan di perangkat tepi seperti smartphone dan kendaraan otonom, yang tidak memiliki daya komputasi atau sumber daya yang besar.

Model Nano milik Google bisa dijalankan di perangkat, sehingga memungkinkan model tersebut untuk berfungsi bahkan tanpa koneksi internet aktif. Kemampuan ini merupakan keuntungan bagi perusahaan dan konsumen. Pertama, kemampuan ini merupakan keuntungan bagi privasi, karena data pengguna diproses secara lokal dan tidak dikirim ke cloud. Hal ini penting karena semakin banyak AI diintegrasikan ke dalam smartphone kita, yang menyimpan hampir semua detail tentang kita. Hal ini juga merupakan keuntungan bagi perusahaan, karena mereka tidak perlu mengerahkan dan menjalankan server besar untuk menangani tugas AI.

Model bahasa kecil semakin diminati, dengan para pemain industri terbesar, seperti OpenAI, Google, Microsoft, Anthropic, dan Meta, merilis model tersebut. Model-model ini lebih cocok untuk tugas yang lebih sederhana, yaitu tugas yang paling sering kita gunakan untuk LLM. Karena itu, model bahasa kecil adalah masa depan. Namun, LLM tidak akan hilang begitu saja. Sebaliknya, LLM akan digunakan untuk aplikasi tingkat lanjut yang menggabungkan informasi dari berbagai domain untuk menciptakan sesuatu yang baru, seperti dalam penelitian medis.