Model Bahasa Kecil: Masa Depan AI?

https://www.facebook.com/pibitek

September 13, 2024 Wiwid

photo origin: makeuseof

TL;DR

Model bahasa kecil dilatih dengan data pelatihan yang lebih kecil dan kualitas lebih tinggi.
Perusahaan besar melirik model bahasa kecil karena membutuhkan daya komputasi yang lebih rendah.

pibitek.biz -ChatGPT, buatan OpenAI, meledak di dunia. Sejak itu, banyak perusahaan lain juga merilis LLM mereka sendiri. Tapi sekarang, banyak perusahaan mulai melirik model bahasa kecil (SLM). Apa itu model bahasa kecil? Sederhananya, model bahasa kecil adalah model AI yang punya parameter lebih sedikit dibanding LLM. Parameter bisa dibayangkan sebagai nilai yang dipelajari model selama proses pelatihan. Model bahasa kecil, seperti LLM, bisa menghasilkan teks dan melakukan tugas lain. Bedanya, model bahasa kecil dilatih menggunakan dataset yang lebih kecil, punya parameter lebih sedikit, dan butuh daya komputasi yang lebih rendah untuk dilatih dan dijalankan.

Model bahasa kecil fokus pada fungsi-fungsi inti. Karena ukurannya yang kecil, mereka bisa dijalankan di berbagai perangkat, termasuk perangkat yang tidak punya spesifikasi tinggi, seperti ponsel pintar. Sebagai contoh, Google punya Nano, model bahasa kecil yang dirancang khusus untuk dijalankan di ponsel pintar. Ukurannya yang kecil memungkinkan Nano untuk dijalankan secara lokal, baik dengan koneksi internet atau tanpa koneksi internet. Selain Nano, banyak model bahasa kecil lain yang dikembangkan oleh perusahaan terkemuka di bidang AI.

Beberapa model bahasa kecil populer antara lain Phi-3 dari Microsoft, GPT-4o mini dari OpenAI, Claude 3 Haiku dari Anthropic, Llama 3 dari Meta, dan Mixtral 8x7B dari Mistral AI. Banyak model yang awalnya dianggap LLM, ternyata adalah model bahasa kecil. Banyak perusahaan sekarang menerapkan pendekatan multi-model, dengan merilis berbagai model bahasa, baik LLM maupun model bahasa kecil. Contohnya, GPT-4 memiliki berbagai versi, termasuk GPT-4, GPT-4o (Omni), dan GPT-4o mini. Perbedaan utama antara model bahasa kecil dan LLM terletak pada ukuran model, yang diukur dalam parameter.

Saat ini, belum ada konsensus di industri AI tentang batasan jumlah parameter untuk menentukan model mana yang termasuk model bahasa kecil dan mana yang termasuk LLM. Namun, secara umum, model bahasa kecil memiliki jutaan hingga miliaran parameter, sedangkan LLM memiliki lebih banyak parameter, bahkan mencapai triliunan. Misalnya, GPT-3, yang dirilis pada tahun 2020, memiliki 175 miliar parameter (dan model GPT-4 dikabarkan memiliki sekitar 1,76 triliun parameter), sedangkan Phi-3-mini, Phi-3-small, dan Phi-3-medium dari Microsoft, yang dirilis pada tahun 2024, masing-masing memiliki 3,8, 7, dan 14 miliar parameter.

Faktor lain yang membedakan model bahasa kecil dan LLM adalah jumlah data yang digunakan untuk pelatihan. Model bahasa kecil dilatih menggunakan data yang lebih sedikit, sedangkan LLM menggunakan dataset yang sangat besar. Perbedaan ini juga memengaruhi kemampuan model dalam menyelesaikan tugas yang kompleks. Karena menggunakan data pelatihan yang lebih besar, LLM lebih cocok untuk menyelesaikan berbagai jenis tugas kompleks yang memerlukan penalaran tingkat tinggi. Sementara itu, model bahasa kecil lebih cocok untuk tugas yang lebih sederhana.

Model bahasa kecil memang menggunakan data pelatihan yang lebih sedikit, tetapi kualitas data yang digunakan harus lebih tinggi untuk mencapai kemampuan yang sebanding dengan LLM dalam ukuran yang lebih kecil. Untuk sebagian besar kasus penggunaan, model bahasa kecil lebih siap untuk menjadi model utama yang digunakan oleh perusahaan dan konsumen untuk melakukan berbagai tugas. Memang, LLM memiliki keunggulannya dan lebih cocok untuk beberapa kasus penggunaan, seperti menyelesaikan tugas yang kompleks.

Namun, model bahasa kecil adalah masa depan untuk sebagian besar kasus penggunaan karena beberapa alasan. Model bahasa kecil membutuhkan data pelatihan yang lebih sedikit dibanding LLM. Hal ini membuat model bahasa kecil menjadi pilihan yang lebih layak bagi individu dan perusahaan kecil dan menengah yang memiliki keterbatasan data pelatihan, dana, atau keduanya. LLM membutuhkan data pelatihan yang sangat banyak dan, akibatnya, membutuhkan sumber daya komputasi yang besar baik untuk pelatihan maupun pengoperasian.

Sebagai contoh, CEO OpenAI, Sam Altman, mengonfirmasi bahwa mereka menghabiskan lebih dari $100 juta untuk melatih GPT-4, seperti yang dikatakannya dalam sebuah acara di MIT (menurut Wired). Contoh lain adalah OPT-175B, LLM milik Meta. Meta mengatakan bahwa model ini dilatih menggunakan 992 GPU NVIDIA A100 80GB, yang harganya sekitar $10.000 per unit, menurut CNBC. Dengan demikian, biaya pelatihan mencapai sekitar $9 juta, belum termasuk biaya lain seperti energi, gaji, dan sebagainya. Dengan biaya yang besar seperti itu, tidak mungkin bagi perusahaan kecil dan menengah untuk melatih LLM.

Sebaliknya, model bahasa kecil memiliki hambatan yang lebih rendah dalam hal sumber daya dan biaya operasional, sehingga lebih banyak perusahaan yang akan mengadopsinya. Performa adalah area lain di mana model bahasa kecil unggul atas LLM karena ukurannya yang lebih kecil. Model bahasa kecil memiliki latensi yang lebih rendah dan lebih cocok untuk skenario di mana respons yang lebih cepat dibutuhkan, seperti dalam aplikasi real-time. Misalnya, respons yang lebih cepat lebih disukai dalam sistem respons suara seperti asisten digital.

Pelaksanaan di perangkat (akan dibahas lebih lanjut nanti) juga berarti bahwa permintaan tidak perlu melakukan perjalanan ke server online dan kembali untuk menanggapi permintaan, sehingga menghasilkan respons yang lebih cepat. Dalam hal AI generatif, satu hal tetap konsisten: sampah masuk, sampah keluar. LLM saat ini dilatih menggunakan dataset besar yang berasal dari internet. Karena itu, LLM mungkin tidak akurat dalam semua situasi. Ini adalah salah satu masalah dengan ChatGPT dan model serupa, dan mengapa kita tidak boleh percaya begitu saja semua yang dikatakan oleh chatbot AI.

Di sisi lain, model bahasa kecil dilatih menggunakan data berkualitas lebih tinggi daripada LLM, sehingga memiliki akurasi yang lebih tinggi. Model bahasa kecil juga bisa disetel lebih lanjut dengan pelatihan yang terfokus pada tugas atau domain tertentu, sehingga meningkatkan akurasi di area tersebut dibandingkan dengan model yang lebih besar dan lebih umum. Model bahasa kecil membutuhkan daya komputasi yang lebih sedikit dibandingkan LLM, sehingga ideal untuk kasus komputasi tepi. Model bahasa kecil bisa dijalankan di perangkat tepi seperti smartphone dan kendaraan otonom, yang tidak memiliki daya komputasi atau sumber daya yang besar.

Model Nano milik Google bisa dijalankan di perangkat, sehingga memungkinkan model tersebut untuk berfungsi bahkan tanpa koneksi internet aktif. Kemampuan ini merupakan keuntungan bagi perusahaan dan konsumen. Pertama, kemampuan ini merupakan keuntungan bagi privasi, karena data pengguna diproses secara lokal dan tidak dikirim ke cloud. Hal ini penting karena semakin banyak AI diintegrasikan ke dalam smartphone kita, yang menyimpan hampir semua detail tentang kita. Hal ini juga merupakan keuntungan bagi perusahaan, karena mereka tidak perlu mengerahkan dan menjalankan server besar untuk menangani tugas AI.

Model bahasa kecil semakin diminati, dengan para pemain industri terbesar, seperti OpenAI, Google, Microsoft, Anthropic, dan Meta, merilis model tersebut. Model-model ini lebih cocok untuk tugas yang lebih sederhana, yaitu tugas yang paling sering kita gunakan untuk LLM. Karena itu, model bahasa kecil adalah masa depan. Namun, LLM tidak akan hilang begitu saja. Sebaliknya, LLM akan digunakan untuk aplikasi tingkat lanjut yang menggabungkan informasi dari berbagai domain untuk menciptakan sesuatu yang baru, seperti dalam penelitian medis.

Singapura • Bos Google Cloud Dibui Gara-Gara MabukSingapura • Bos Google Cloud Dibui Gara-Gara Mabuk

Rees, bos Google Cloud di Singapura, kena hukuman penjara dan denda karena mengemudi dalam keadaan mabuk. Rees menghabiskan empat hingga lima kaleng bir sebelum mengemudi, dan terbukti positif alkohol saat dites polisi. Rees dihukum dua minggu penjara...

Ancaman Siluman di Dunia Linux - credit: linux-magazine - pibitek.biz - Deteksi

Ancaman Siluman di Dunia LinuxAncaman Siluman di Dunia Linux

Komunikasi • Perfctl adalah software jahat yang mencuri sumber daya komputer untuk penambangan kripto. Perfctl menggunakan teknik rootkit dan penyamaran untuk menghindari deteksi sistem keamanan. Pencegahan dan pembaruan sistem secara berkala diperlukan untuk melindungi...

Komputasi Quantum Ancam Enkripsi Modern - credit for: darkreading - pibitek.biz - Data

China — Komputasi Quantum Ancam Enkripsi ModernChina — Komputasi Quantum Ancam Enkripsi Modern

Penelitian di Shanghai University menunjukkan ancaman komputasi kuantum terhadap enkripsi modern. Quantum annealing dapat memecahkan kriptografi sebelum komputer kuantum universal tersedia. Organisasi perlu mengadopsi enkripsi tahan kuantum untuk melindungi...

Databricks: Majukan AI Open Source dan Penguatan Tata Kelola Data - the image via: artificialintelligence-news - pibitek.biz - Bahasa

Databricks: Majukan AI Open Source dan Penguatan Tata Kelola DataDatabricks: Majukan AI Open Source dan Penguatan Tata Kelola Data

Databricks, sebagai perusahaan yang bergerak di bidang teknologi, terus berinovasi dalam bidang AI dan tata kelola data. Salah satu pencapaian penting Databricks adalah pengembangan LLM yang diberi nama DBRX. Model DBRX ini berhasil menorehkan prestasi gemilang dengan melampaui kemampuan model AI open source lainnya. DBRX menunjukkan kemampuan yang unggul dalam (Inovasi pibitek.biz Rat)

Microsoft dan OpenAI: Pasang Surut Kolaborasi - the picture via: geekwire - pibitek.biz - Investor

Microsoft dan OpenAI: Pasang Surut KolaborasiMicrosoft dan OpenAI: Pasang Surut Kolaborasi

Ekosistem — Hubungan antara Microsoft dan OpenAI, dua raksasa teknologi yang merintis jalan di bidang AI, tampak mengalami pasang surut. Kemitraan yang dulunya erat, kini menghadapi tantangan dan ketegangan yang semakin terasa. Kedua perusahaan teknologi ini telah menjalin hubungan erat selama bertahun-tahun, dengan Microsoft memberikan dukungan finansial dan komputasi yang signifikan kepada

Ginseng Liar: Diggers Bukan Musuh, Tapi Sahabat - credit to: theconversation - pibitek.biz - Medis

Ginseng Liar: Diggers Bukan Musuh, Tapi Sahabat!Ginseng Liar: Diggers Bukan Musuh, Tapi Sahabat!

Penggali ginseng dipandang sebagai musuh di hutan Appalachia oleh negara. Larangan mencabut ginseng di hutan nasional Appalachia membuat penggali bingung tentang peraturan negara. [18/18 Mar pibitek.biz]

Pejabat Eropa-Amerika Latin Sikat Jaringan Phishing - credit for: cyberscoop - pibitek.biz - Bisnis

Pejabat Eropa-Amerika Latin Sikat Jaringan PhishingPejabat Eropa-Amerika Latin Sikat Jaringan Phishing

Fitur — Pejabat Eropa dan Amerika Latin berhasil menggerebek jaringan phishing yang brutal, yang telah beroperasi selama lima tahun dan telah mencuri data hampir setengah juta orang. Operasi gabungan antara Europol dan Ameripol berhasil menangkap 17 orang pelaku...

Meta Beralih Fokus ke Pengembangan AI - image source: myelectricsparks - pibitek.biz - Fitur

OpenAI • Meta Beralih Fokus ke Pengembangan AIOpenAI • Meta Beralih Fokus ke Pengembangan AI

Meta mengalihkan fokus ke pengembangan AI. Perusahaan memprioritaskan efisiensi dan pengurangan pengeluaran. Investasi dalam AI diharapkan meningkatkan pendapatan...

Useful Lists

by Dates :	1 Oct 20241 Oct 2024 20 Oct 202420 Oct 2024 24 Oct 202424 Oct 2024 27 Oct 202427 Oct 2024
by Authors :	Kristin Wiwied IndrayaktiKristin Wiwied Indrayakti Ratih Aini KusumawardhaniRatih Aini Kusumawardhani Marza HernandoMarza Hernando Aris Banu PradaniAris Banu Pradani Heni Qania SulastriHeni Qania Sulastri
by Tags :	#bisnis#bisnis #medis#medis #platform#platform #sosial#sosial

Model Bahasa Kecil: Masa Depan AI?

Related Post

Useful Lists