- SambaNova ngeluarin layanan cloud AI yang bisa ngeluarin token 132/detik.
- SambaNova Cloud bisa ngelayani model AI Llama 3.1 405B dengan cepat.
- SambaNova dapat ngeluarin token lebih cepat dari layanan AI lain.
pibitek.biz -SambaNova, salah satu pemain baru di dunia sistem AI, baru aja ngeluncurin layanan cloud-nya sendiri, dan langsung ngegas kenceng, ngakalin semua pesaingnya. Mereka ngaku siap nge-serve model AI Meta yang paling gede, Llama 3.1 405B, jauh lebih cepet dibanding layanan AI lain. Lomba kecepatan ini ngejadiin tren baru di dunia AI. Ada banyak banget layanan cloud yang muncul, semua menawarkan akses API ke berbagai model open-weight yang populer. Sebagian besar layanan ini pake GPU, tapi vendor-vendor lain yang pake hardware khusus, kayak Cerebras, Groq, dan sekarang SambaNova, ngeburu siapa yang bisa ngeluarin token paling cepet.
2 – Samsung: Pembaruan Galaxy S22 Oktober 2024, Perbaiki 42 Kerentanan 2 – Samsung: Pembaruan Galaxy S22 Oktober 2024, Perbaiki 42 Kerentanan
3 – Apple Tertinggal dalam Pengembangan AI 3 – Apple Tertinggal dalam Pengembangan AI
Buat yang belum familiar, token ini kayak kode yang dipake model AI buat ngerepresentasiin kata, potongan kata, tanda baca, dan angka. Jadi, semakin cepet infrastruktur kamu ngeluarin token, semakin cepet juga kamu dapet jawaban dari model AI. CEO SambaNova, Rodrigo Liang, ngaku kalo mereka berhasil ngebut Llama 3.1 405B dari Meta, yang ukurannya dua kali lipat lebih gede dibanding GPT-3.5 dari OpenAI, untuk ngeluarin token secepat 132 token per detik. Itu pun masih dengan presisi penuh 16-bit, kayak waktu model AI-nya dilatih.
Bayangin, orang biasa bisa baca sekitar 5 kata per detik. SambaNova bisa ngeluarin token hampir dua kali lipat lebih cepet dibanding layanan GPU yang paling cepet. Data ini didapat dari Artificial Analysis, dan SambaNova langsung pamerin di pengumumannya. Llama 3.1 405B adalah model kelas frontier pertama dari Meta, yang dirilis awal musim panas ini. Model ini bisa bersaing langsung sama model-model gede dari OpenAI, Anthropic, dan Google. Meskipun ukurannya jauh lebih kecil dibanding model AI lain, menjalankan 405B dengan presisi 16-bit itu bukan perkara mudah.
Cuma buat nyimpen model AI ini aja udah butuh ruang memori 810 GB. Belum lagi space yang dibutuhkan buat key-value cache. SambaNova pake 16 accelerator SN40L buat ngejalanin model AI-nya. Setiap accelerator punya 64 GB HBM3 memory yang super cepet dan 520 MB SRAM. SambaNova ngaku berhasil ngeluarin 132 token per detik buat Llama 3.1 405B, dan 461 token per detik buat versi yang lebih kecil, 70 miliar parameter. Data dari Artificial Analysis ngasih tau kalo layanan GPU yang paling cepet aja cuma bisa ngeluarin 72 token per detik buat model 405B dari Meta.
Sebagian besar layanan GPU lainnya jauh lebih lambat dari itu. SambaNova juga ngaku bisa ngejaga performa di atas 100 token per detik, bahkan sampai batch size 4. Artinya, bisa ngelayanin sampai empat request secara bersamaan. Anton McGonnell, kepala divisi produk software SambaNova, bilang kalo masih ada potensi buat ngeluarin token lebih banyak lagi. Kinerja yang luar biasa ini bisa dicapai berkat cache yang lebih gede di SN40L. Cache yang gede ini ngebantu ngehindarin overhead performa yang biasanya terjadi di sistem multi-GPU.
“Kalo GPU bisa nge-manfaatin bandwidth memory secara penuh, performanya bakal jauh lebih cepet. Tapi kenyataannya, mereka gak bisa,” jelas McGonnell. Meskipun berhasil ngejalanin Llama 3.1 405B dengan presisi 16-bit, SambaNova tetap ngelakuin beberapa kompromi. Salah satunya adalah model AI ini gak bisa jalan dengan konteks window penuh 128k token, dan terpaksa dipotong jadi 8k. “Buat peluncuran ini, kita cuma ngeluarin versi 8k. Alasannya, traffic. Kalo banyak orang pake versi 128k, semua orang bakal jadi lambat,” jelas McGonnell.
Ini gak akan ngaruh ke performa kalo diaplikasikan ke chatbot customer service, tapi bisa ngebatasi fungsinya kalo diaplikasikan ke aplikasi yang butuh konteks panjang, kayak summarization dokumen. SambaNova Cloud ngeluarin dua tier layanan: gratis dan enterprise berbayar. Keduanya udah tersedia mulai hari ini. SambaNova juga berencana ngeluarin tier developer tahun ini. Selain batas kecepatan yang lebih tinggi, tier developer juga bakal ngasih akses ke pengembang buat ngebangun model AI berdasarkan Llama 3.1.
Tapi, seperti yang udah dijelasin sebelumnya, SambaNova bukan satu-satunya vendor yang ngandalin kecepatan buat ngebedain layanannya dari banyaknya layanan berbasis GPU. Cerebras, yang ngeluncurin layanan cloud inferencenya di konferensi Hot Chips akhir bulan lalu, ngaku bisa ngeluarin token sampai 450 token per detik buat Llama 3.1 70B. Cerebras ngarepin bisa ngeluarin 350 token per detik buat versi 405B. Kalo Cerebras bisa ngelakuin itu, berarti mereka bakal ngalahin SambaNova. Tapi, Cerebras butuh 12 wafer-scale chip buat ngelakuin itu.
Ada juga Groq, yang sebelumnya berhasil ngeluarin token secepat 300 token per detik buat Llama 2 70B, dengan 576 language processing unit. Groq baru aja dapet pendanaan seri-D senilai $640 juta, yang bakal dipake buat ngembangin accelerator generasi berikutnya.