- Backprop menggunakan model AI Llama 3.1 8B untuk menguji kartu RTX 3090.
- Menunjukkan kartu RTX 3090 dapat melayani 100 pengguna dengan performa yang bisa diterima.
- Mengembangkan layanan menggunakan kartu A100 untuk meningkatkan performa model AI.
pibitek.biz -kamu mungkin berpikir kalau butuh GPU super canggih, dengan harga selangit, untuk melayani ribuan pengguna AI. Mungkin kamu membayangkan server-server besar dengan kartu grafis yang mahal dan prosesor yang powerful. Tapi ternyata, enggak! Sebuah perusahaan teknologi bernama Backprop membuktikan kalau kartu grafis lama, RTX 3090, masih sanggup mengolah data AI untuk ribuan orang. Backprop menunjukkan hasil tes mereka dengan menggunakan model AI Llama 3.1 8B, sebuah model bahasa yang populer, dan hasilnya cukup mengejutkan.
2 – AI Apple: Kekecewaan dan Keterlambatan 2 – AI Apple: Kekecewaan dan Keterlambatan
3 – SimpliSafe Rilis Layanan Pemantauan Aktif Waktu Nyata 3 – SimpliSafe Rilis Layanan Pemantauan Aktif Waktu Nyata
Satu kartu RTX 3090 bisa melayani 100 permintaan secara bersamaan, dengan kecepatan yang masih bisa diterima untuk aplikasi AI. Kecepatan ini tentu saja sangat penting, karena kecepatan proses komputasi akan menentukan kualitas pengalaman pengguna. Walaupun hanya sebagian kecil pengguna yang akan mengirim permintaan sekaligus, Backprop memperkirakan bahwa satu RTX 3090 mampu menangani ribuan pengguna. Ini berarti bahwa dengan satu kartu grafis, perusahaan bisa menghemat biaya dan tenaga, tanpa mengurangi kualitas layanan.
Keajaiban teknologi AI memungkinkan pengolahan data yang lebih efisien dan hemat sumber daya. Perusahaan ini memang sudah punya pengalaman dalam menyewakan GPU sejak tiga tahun lalu, dan kini mereka beralih ke layanan cloud yang dapat diakses langsung oleh pengguna. Langkah ini menunjukkan bahwa teknologi AI semakin mudah diakses oleh banyak orang. Tidak hanya perusahaan besar yang bisa memanfaatkan kekuatan AI, kini para individu dan usaha kecil juga dapat mengakses teknologi ini dengan biaya yang lebih terjangkau.
Meskipun menggunakan hardware untuk konsumen mungkin terdengar aneh untuk menjalankan layanan cloud, Backprop bukanlah satu-satunya. Hetzner, perusahaan infrastruktur di Jerman, sudah lama menggunakan prosesor AMD Ryzen untuk server mereka. Ini menunjukkan bahwa ada alternatif lain dalam menjalankan layanan cloud, tidak harus dengan menggunakan hardware yang mahal dan kompleks. Perusahaan-perusahaan teknologi kini semakin terbuka untuk mengeksplorasi berbagai alternatif, demi mencapai efisiensi dan hemat biaya.
RTX 3090 sendiri bukanlah kartu grafis yang buruk untuk mengolah model AI. Dengan performa 142 teraFLOPS untuk komputasi FP16 dan bandwidth memori 936GB/s, kartu ini mampu menangani proses komputasi kompleks yang dibutuhkan untuk AI. Kemampuan ini tidak kalah dengan kartu grafis kelas server yang harganya jauh lebih mahal. Hal ini menunjukkan bahwa tidak selalu butuh hardware yang mahal untuk mendapatkan performa yang optimal dalam mengolah AI. "RTX 3090 sebenarnya kartu yang hebat. Kalau kamu mau mendapatkan performa sebanding di server, kamu harus merogoh kocek lebih dalam", ujar Kristo Ojasaar, salah satu pendiri Backprop.
Pernyataan ini menegaskan bahwa RTX 3090 mampu bersaing dengan kartu grafis server dalam hal performa, dengan harga yang jauh lebih terjangkau. Dengan demikian, penggunaan RTX 3090 menawarkan solusi yang lebih hemat biaya untuk mengolah data AI. Namun, kelemahan RTX 3090 adalah kapasitas memorinya yang hanya 24GB. Memori ini mungkin tidak cukup untuk model AI besar seperti Llama 3 70B atau Mistral Large, bahkan dengan menggunakan teknik kompresi. Ini menunjukkan bahwa RTX 3090 lebih cocok untuk model AI yang lebih kecil, seperti Llama 3.1 8B.
Namun, untuk model AI yang lebih besar, mungkin diperlukan GPU yang lebih powerful dengan kapasitas memori yang lebih besar. Karena itu, Backprop memilih model yang lebih kecil, Llama 3.1 8B, yang cukup muat di memori kartu dan masih menyisakan ruang untuk menyimpan data lain. Pilihan ini menunjukkan bahwa Backprop memilih strategi yang pragmatis, yaitu memilih model AI yang sesuai dengan kemampuan hardware yang tersedia. Dengan menggunakan model AI yang lebih kecil, Backprop dapat mengoptimalkan penggunaan sumber daya dan meningkatkan efisiensi.
Backprop melakukan tes menggunakan framework vLLM, yang populer untuk mengolah model AI di berbagai GPU atau node. Framework ini merupakan alat yang penting dalam pengembangan dan pengolahan model AI, karena memungkinkan pengembang untuk mengelola sumber daya dengan lebih efisien. Dengan menggunakan framework yang tepat, pengembang dapat meningkatkan performa dan akurasi model AI. Namun, hasilnya perlu dilihat dengan cermat. Meskipun RTX 3090 mampu melayani 100 pengguna secara bersamaan, kecepatannya belum terlalu cepat, yaitu 12.88 token per detik.
Kecepatan ini memang lebih cepat dari kecepatan membaca manusia rata-rata, yaitu lima kata per detik. Namun, kecepatan yang diharapkan untuk chatbot AI biasanya minimal 10 token per detik. Tes Backprop juga dilakukan dengan menggunakan prompt pendek dan output maksimal 100 token. Ini berarti bahwa hasilnya mungkin tidak relevan untuk aplikasi AI yang membutuhkan analisis teks yang panjang. Hasil ini menunjukkan bahwa RTX 3090 mungkin tidak cocok untuk aplikasi AI yang membutuhkan performa tinggi, seperti penerjemahan bahasa atau summarization teks.
Namun, untuk aplikasi yang lebih sederhana, seperti chatbot customer service, RTX 3090 masih dapat berfungsi dengan baik. Dalam tes selanjutnya dengan prompt yang lebih panjang, 200-300 token, RTX 3090 masih mampu menghasilkan 11 token per detik dengan 50 pengguna. Hasil ini menunjukkan bahwa RTX 3090 masih dapat berfungsi dengan baik untuk aplikasi AI yang membutuhkan prompt yang lebih panjang. Namun, kecepatan ini masih lebih lambat dari yang diharapkan untuk chatbot AI. Namun, perlu diingat bahwa hasil ini diperoleh dengan model AI Llama 3.1 8B dengan FP16.
Jika model AI dikompres menjadi 8 bit atau 4 bit, kecepatannya bisa dua kali lipat atau empat kali lipat. Kompresi model AI dapat meningkatkan kecepatan proses komputasi, namun juga dapat mengurangi akurasinya. Oleh karena itu, perlu dipilih kompresi yang tepat agar tidak mengurangi kualitas model AI. Hasil tes Backprop menunjukkan pentingnya analisis performa dan pemilihan model AI yang sesuai dengan kebutuhan. Pilihan model AI yang tepat akan menentukan performa dan akurasi aplikasi AI. Dengan demikian, penting untuk melakukan analisis yang cermat sebelum memilih model AI dan hardware yang akan digunakan. "Pemasaran cloud yang agresif membuat orang berpikir kalau butuh layanan cloud khusus atau teknologi canggih untuk melayani banyak pengguna. Tapi ternyata, itu enggak benar", kata Ojasaar. Pernyataan ini menunjukkan bahwa teknologi AI tidak selalu memerlukan hardware yang mahal dan kompleks. Dengan memilih hardware dan model AI yang tepat, perusahaan dapat mengoptimalkan biaya dan mendapatkan performa yang optimal. Untuk pengguna yang butuh model AI yang lebih besar atau kecepatan yang lebih tinggi, Backprop sedang mengembangkan layanan menggunakan kartu A100 PCIe 40GB HBM2e.
Kartu ini menawarkan performa yang lebih tinggi dan kapasitas memori yang lebih besar, sehingga cocok untuk model AI yang lebih besar. Perkembangan ini menunjukkan bahwa Backprop terus berinovasi dan mengembangkan layanan AI yang lebih canggih. Meskipun kartu ini juga sudah agak tua, tetapi dengan kemampuan multi-instance GPU, Backprop bisa membagi kartu tersebut menjadi beberapa bagian dan menekan biaya. Dengan kemampuan ini, Backprop dapat meningkatkan efisiensi dan mengurangi biaya operasional.