SambaNova Kalahkan Lawan di Balapan Cepat AI

https://www.facebook.com/pibitek

September 21, 2024 Heni

the picture via: theregister

TL;DR

SambaNova ngeluarin layanan cloud AI yang bisa ngeluarin token 132/detik.
SambaNova Cloud bisa ngelayani model AI Llama 3.1 405B dengan cepat.
SambaNova dapat ngeluarin token lebih cepat dari layanan AI lain.

pibitek.biz -SambaNova, salah satu pemain baru di dunia sistem AI, baru aja ngeluncurin layanan cloud-nya sendiri, dan langsung ngegas kenceng, ngakalin semua pesaingnya. Mereka ngaku siap nge-serve model AI Meta yang paling gede, Llama 3.1 405B, jauh lebih cepet dibanding layanan AI lain. Lomba kecepatan ini ngejadiin tren baru di dunia AI. Ada banyak banget layanan cloud yang muncul, semua menawarkan akses API ke berbagai model open-weight yang populer. Sebagian besar layanan ini pake GPU, tapi vendor-vendor lain yang pake hardware khusus, kayak Cerebras, Groq, dan sekarang SambaNova, ngeburu siapa yang bisa ngeluarin token paling cepet.

Buat yang belum familiar, token ini kayak kode yang dipake model AI buat ngerepresentasiin kata, potongan kata, tanda baca, dan angka. Jadi, semakin cepet infrastruktur kamu ngeluarin token, semakin cepet juga kamu dapet jawaban dari model AI. CEO SambaNova, Rodrigo Liang, ngaku kalo mereka berhasil ngebut Llama 3.1 405B dari Meta, yang ukurannya dua kali lipat lebih gede dibanding GPT-3.5 dari OpenAI, untuk ngeluarin token secepat 132 token per detik. Itu pun masih dengan presisi penuh 16-bit, kayak waktu model AI-nya dilatih.

Bayangin, orang biasa bisa baca sekitar 5 kata per detik. SambaNova bisa ngeluarin token hampir dua kali lipat lebih cepet dibanding layanan GPU yang paling cepet. Data ini didapat dari Artificial Analysis, dan SambaNova langsung pamerin di pengumumannya. Llama 3.1 405B adalah model kelas frontier pertama dari Meta, yang dirilis awal musim panas ini. Model ini bisa bersaing langsung sama model-model gede dari OpenAI, Anthropic, dan Google. Meskipun ukurannya jauh lebih kecil dibanding model AI lain, menjalankan 405B dengan presisi 16-bit itu bukan perkara mudah.

Cuma buat nyimpen model AI ini aja udah butuh ruang memori 810 GB. Belum lagi space yang dibutuhkan buat key-value cache. SambaNova pake 16 accelerator SN40L buat ngejalanin model AI-nya. Setiap accelerator punya 64 GB HBM3 memory yang super cepet dan 520 MB SRAM. SambaNova ngaku berhasil ngeluarin 132 token per detik buat Llama 3.1 405B, dan 461 token per detik buat versi yang lebih kecil, 70 miliar parameter. Data dari Artificial Analysis ngasih tau kalo layanan GPU yang paling cepet aja cuma bisa ngeluarin 72 token per detik buat model 405B dari Meta.

Sebagian besar layanan GPU lainnya jauh lebih lambat dari itu. SambaNova juga ngaku bisa ngejaga performa di atas 100 token per detik, bahkan sampai batch size 4. Artinya, bisa ngelayanin sampai empat request secara bersamaan. Anton McGonnell, kepala divisi produk software SambaNova, bilang kalo masih ada potensi buat ngeluarin token lebih banyak lagi. Kinerja yang luar biasa ini bisa dicapai berkat cache yang lebih gede di SN40L. Cache yang gede ini ngebantu ngehindarin overhead performa yang biasanya terjadi di sistem multi-GPU.

“Kalo GPU bisa nge-manfaatin bandwidth memory secara penuh, performanya bakal jauh lebih cepet. Tapi kenyataannya, mereka gak bisa,” jelas McGonnell. Meskipun berhasil ngejalanin Llama 3.1 405B dengan presisi 16-bit, SambaNova tetap ngelakuin beberapa kompromi. Salah satunya adalah model AI ini gak bisa jalan dengan konteks window penuh 128k token, dan terpaksa dipotong jadi 8k. “Buat peluncuran ini, kita cuma ngeluarin versi 8k. Alasannya, traffic. Kalo banyak orang pake versi 128k, semua orang bakal jadi lambat,” jelas McGonnell.

Ini gak akan ngaruh ke performa kalo diaplikasikan ke chatbot customer service, tapi bisa ngebatasi fungsinya kalo diaplikasikan ke aplikasi yang butuh konteks panjang, kayak summarization dokumen. SambaNova Cloud ngeluarin dua tier layanan: gratis dan enterprise berbayar. Keduanya udah tersedia mulai hari ini. SambaNova juga berencana ngeluarin tier developer tahun ini. Selain batas kecepatan yang lebih tinggi, tier developer juga bakal ngasih akses ke pengembang buat ngebangun model AI berdasarkan Llama 3.1.

Tapi, seperti yang udah dijelasin sebelumnya, SambaNova bukan satu-satunya vendor yang ngandalin kecepatan buat ngebedain layanannya dari banyaknya layanan berbasis GPU. Cerebras, yang ngeluncurin layanan cloud inferencenya di konferensi Hot Chips akhir bulan lalu, ngaku bisa ngeluarin token sampai 450 token per detik buat Llama 3.1 70B. Cerebras ngarepin bisa ngeluarin 350 token per detik buat versi 405B. Kalo Cerebras bisa ngelakuin itu, berarti mereka bakal ngalahin SambaNova. Tapi, Cerebras butuh 12 wafer-scale chip buat ngelakuin itu.

Ada juga Groq, yang sebelumnya berhasil ngeluarin token secepat 300 token per detik buat Llama 2 70B, dengan 576 language processing unit. Groq baru aja dapet pendanaan seri-D senilai $640 juta, yang bakal dipake buat ngembangin accelerator generasi berikutnya.

ChatGPT Plus: Apa Saja Keunggulannya?ChatGPT Plus: Apa Saja Keunggulannya?

Sosmed – ChatGPT Plus menawarkan GPT-4 yang super canggih, OpenAI serius mengembangkan ChatGPT. Versi gratis ChatGPT tetap ada, tapi ChatGPT Plus menawarkan fitur premium yang lebih lengkap, OpenAI. OpenAI terus berinovasi dengan GPT-4, ChatGPT Plus...

Serangan PIXHELL: Mencuri Data Lewat Kebisingan Layar LCD - photo source: thehackernews - pibitek.biz - Suara

Serangan PIXHELL: Mencuri Data Lewat Kebisingan Layar LCD – NirkabelSerangan PIXHELL: Mencuri Data Lewat Kebisingan Layar LCD – Nirkabel

Serangan PIXHELL dapat menyerang komputer terisolasi dengan memanfaatkan kebisingan layar LCD. Serangan ini menggunakan malware untuk menghasilkan pola piksel yang menghasilkan kebisingan dalam rentang frekuensi 0-22 kHz. Organisasi harus berinvestasi...

Volvo Ragu dengan Proyeksi EV Tahun 2030 - image owner: electrek - pibitek.biz - Pangsa Pasar

Volvo Ragu dengan Proyeksi EV Tahun 2030Volvo Ragu dengan Proyeksi EV Tahun 2030

Dealer – Volvo, salah satu pabrikan mobil yang paling getol menggaungkan mobil listrik, mulai meragukan janji mereka untuk menjadi sepenuhnya elektrik di tahun 2030. CEO Volvo, Jim Rowan, mengatakan bahwa mungkin butuh waktu lama untuk membuat semua pasar di seluruh dunia beralih ke mobil listrik sepenuhnya. Sebagai gantinya, Volvo berencana untuk menggunakan

Elon Musk Ngamuk Gegara OpenAI Mau Jadi Perusahaan Profit - credit for: readwrite - pibitek.biz - ChatGPT

PHK • Elon Musk Ngamuk Gegara OpenAI Mau Jadi Perusahaan ProfitPHK • Elon Musk Ngamuk Gegara OpenAI Mau Jadi Perusahaan Profit

Elon Musk ngamuk karena OpenAI mau jadi perusahaan profit. OpenAI membantah tuduhan Elon Musk, tetap fokus pada misi. OpenAI masih ngeyakinin publik kalau mereka tetap fokus membangun AI bermanfaat.

Hacker Rusia Raja Ransomware: Raja Kripto Semalam - image origin: bleepingcomputer - pibitek.biz - Organisasi

Hacker Rusia Raja Ransomware: Raja Kripto SemalamHacker Rusia Raja Ransomware: Raja Kripto Semalam

Manusia • Hacker Rusia nguasai dunia digital, meraup uang kripto dari kejahatan ransomware. Hacker Rusia ngatur bisnis ilegal di pasar gelap, nge-cuci uang hasil kejahatan....

Bom Waktu Demografi China: Penduduk Semakin Menua dan Menurun - credit for: channelnewsasia - pibitek.biz - Karyawan

Bom Waktu Demografi China: Penduduk Semakin Menua dan Menurun • SejarahBom Waktu Demografi China: Penduduk Semakin Menua dan Menurun • Sejarah

China menghadapi masalah demografi serius: penduduk semakin menua dan jumlah penduduk menurun. Pemerintah China berusaha mengatasi masalah ini dengan menaikkan usia pensiun, namun tidak cukup untuk mengatasi penurunan populasi dan masalah sosial....

Mahasiswa Matematika Bangun Reaktor Fusi di Rumah - photo from: techspot - pibitek.biz - milyar

Mahasiswa Matematika Bangun Reaktor Fusi di RumahMahasiswa Matematika Bangun Reaktor Fusi di Rumah

Nazoordeen membangun reaktor fusi di kamar tidurnya. Nazoordeen sukses mengatasi kebocoran vakum dan mencapai tekanan ideal fusi. Nazoordeen belum mencapai fusi karena belum melepaskan neutron, reaktor fusi masih perlu modifikasi. (pibitek.biz.Dis.Rumah)

Senjata Gila Switch Axe Makin Ganas di Monster Hunter Wilds - credit to: windowscentral - pibitek.biz - Suara

Senjata Gila Switch Axe Makin Ganas di Monster Hunter Wilds – FiturSenjata Gila Switch Axe Makin Ganas di Monster Hunter Wilds – Fitur

Di dunia Monster Hunter, Switch Axe telah lama menjadi favorit para pemburu. Gabungan kekuatan dan kecepatan yang dimiliki Switch Axe membuatnya menjadi senjata yang mematikan di tangan para pemburu berpengalaman. Dengan kemampuannya untuk berubah wujud antara kapak dan pedang, Switch Axe memberikan fleksibilitas yang luar biasa dalam pertempuran

Useful Lists

by Dates :	12 Aug 202412 Aug 2024 26 Aug 202426 Aug 2024 12 Sep 202412 Sep 2024 29 Sep 202429 Sep 2024 15 Oct 202415 Oct 2024
by Authors :	Dicky DerilandryDicky Derilandry Bob Firas SidhartaBob Firas Sidharta Grasia CaesaraniGrasia Caesarani Ratih Aini KusumawardhaniRatih Aini Kusumawardhani Aris Banu PradaniAris Banu Pradani
by Tags :	#badai#badai #fitur#fitur #teknologi#teknologi

SambaNova Kalahkan Lawan di Balapan Cepat AI

Related Post

Useful Lists