Jaringan AI Tanpa Tulang Punggung? Itulah Kelebihannya!

https://www.facebook.com/pibitek

September 2, 2024 Kristin

picture source: nextplatform

TL;DR

Jaringan AI tanpa tulang punggung dapat mengurangi biaya.
Arsitektur jaringan 'hanya-rel' menghilangkan switch spine yang mahal.
Jaringan 'hanya-rel' menghemat biaya dan daya listrik.

pibitek.biz -Membangun aplikasi yang menjangkau seluruh pusat data dengan ratusan hingga ribuan layanan mikro yang berjalan di server yang tak terhitung jumlahnya, dan harus dipanggil dalam waktu mikrodetik untuk menciptakan ilusi aplikasi monolitik, membutuhkan jaringan Clos dengan konektivitas tinggi dan bandwidth besar. Bayangkan seperti ini, server aplikasi, server middleware, server database, dan server penyimpanan bisa berada di mana saja dalam pusat data. Kamu tidak pernah tahu server mana yang perlu berkomunikasi dengan server lainnya.

Oleh karena itu, kamu harus menyediakan bandwidth dan konektivitas berlebih untuk meminimalisir waktu tunda. Namun, jaringan Clos dengan bandwidth tinggi tidak selalu menjadi arsitektur terbaik untuk sistem pelatihan AI, terutama mengingat mahalnya biaya jaringan untuk kluster AI. Karena biaya dan kompleksitas jaringan AI terus meningkat, ada kebutuhan untuk mencari solusi yang lebih efisien. Itulah mengapa para peneliti di Computer Science and Artificial Intelligence Laboratory (CSAIL) di MIT berkolaborasi dengan tim jaringan di Meta Platforms untuk mencari solusi baru.

Mereka memutuskan untuk mengeksplorasi solusi yang sudah ada dan mencoba menghilangkan lapisan switching yang mahal dari jaringan AI. Hasilnya adalah arsitektur jaringan 'hanya-rel' yang dapat secara signifikan mengurangi biaya tanpa mengorbankan kinerja pelatihan AI. Arsitektur jaringan ini, yang dijelaskan dalam makalah penelitian yang dipresentasikan pada konferensi Hot Interconnects 2024, menawarkan pendekatan yang sangat inovatif. Arsitektur Clos adalah salah satu cara menghubungkan setiap node atau elemen dalam node (seperti GPU atau DPU) ke semua node atau elemen lainnya di seluruh pusat data.

Tetapi, ada cara lain untuk menghubungkan perangkat dalam jaringan, seperti topologi Dragonfly yang banyak digunakan di pusat-pusat superkomputer. Sayangnya, topologi Dragonfly mengharuskan jaringan dikonfigurasi ulang setiap kali perangkat baru ditambahkan. Ini berbeda dengan topologi Clos yang menawarkan fleksibilitas untuk menambahkan perangkat dengan mudah. Namun, topologi Dragonfly menawarkan latensi yang konsisten di seluruh jaringan, tidak seperti topologi Clos yang memiliki variasi latensi.

Sistem pelatihan AI besar biasanya menggunakan ribuan GPU untuk melatih model besar dengan triliunan parameter dalam waktu yang relatif singkat. Misalnya, Meta Platforms menggunakan 24.576 GPU untuk melatih model Llama 3.1 405B. Diperkirakan model generasi berikutnya akan membutuhkan 32.768 GPU dalam satu kluster. Jaringan Clos yang digunakan dalam sistem ini biasanya terdiri dari switch leaf dan spine Ethernet, semuanya mendukung Remote Direct Memory Access (RDMA) yang memungkinkan GPU berbagi data dengan semua GPU lainnya dalam jaringan secara bersamaan menggunakan topologi all-to-all.

Menurut Weiyan Wang, mahasiswa doktoral di CSAIL, membangun jaringan Clos dengan bandwidth tinggi untuk menghubungkan lebih dari 32.000 GPU akan menghabiskan biaya $153 juta dan mengonsumsi daya listrik sebesar 4,7 megawatt. Bayangkan, membangun jaringan yang menghubungkan 30.000 GPU dengan kecepatan 400 Gb/sec menggunakan kain bandwidth bisection penuh akan menghabiskan biaya $200 juta! Para peneliti di CSAIL dan Meta Platforms meneliti pola lalu lintas data di seluruh rel dan switch spine saat proses pelatihan LLM (Large Language Model) berlangsung. Hasilnya mengejutkan! Mereka menemukan bahwa sebagian besar lalu lintas data tetap berada di dalam rel dan tidak menyebar ke switch spine.

Ini menunjukkan bahwa switch spine yang mahal tidak diperlukan karena NVSwitch yang ada di setiap node HGX (High-performance Graphics eXtended) memiliki bandwidth dan latensi yang cukup untuk menangani komunikasi data yang jarang terjadi di antara rel. Dengan mengadopsi arsitektur jaringan 'hanya-rel', switch spine dapat dihilangkan. Ini berarti bahwa data yang perlu ditransfer antar-rel dapat dilakukan melalui NVSwitch yang ada di dalam HGX, bukan melalui switch spine yang mahal. Jaringan 'hanya-rel' sangat efisien karena dapat mengurangi jumlah switch dan transceiver yang dibutuhkan, yang merupakan komponen termahal dalam keseluruhan jaringan.

Dengan mengadopsi arsitektur jaringan 'hanya-rel', biaya jaringan dapat dikurangi hingga $1,3 juta dan daya listrik yang dibutuhkan dapat dihemat hingga 41 kilowatt. Penting untuk dicatat bahwa kinerja pelatihan LLM tidak terpengaruh secara signifikan dengan penggunaan jaringan 'hanya-rel'. Hanya ada sedikit penurunan performa (11,2%) dalam komunikasi all-to-all dalam kluster. Namun, komunikasi all-to-all hanya menyumbang 26,5% dari total komunikasi dalam model LLM yang dilatih, sehingga dampaknya pada performa keseluruhan sangat kecil.

Ini adalah contoh nyata dari bagaimana inovasi kecil dapat menghasilkan dampak besar dalam dunia komputasi AI. Dengan menghilangkan komponen yang tidak perlu, seperti switch spine, jaringan AI dapat menjadi lebih efisien dan terjangkau. Tentu, ada beberapa hal yang perlu diperhatikan. Misalnya, penempatan shard dan replika yang menggerakkan tensor parallelism dan data parallelism harus berada pada rel yang sama dalam jaringan agar jaringan 'hanya-rel' berfungsi dengan baik. Meskipun demikian, temuan ini membuka jalan baru untuk pengembangan arsitektur jaringan AI di masa depan.

Update Terbaru Call of Duty Black Ops 6Update Terbaru Call of Duty Black Ops 6

PS • Setelah menunggu dengan sabar, akhirnya Activision memulai langkah untuk merilis Call of Duty: Black Ops 6. Ya, salah satu game yang paling dinantikan akhirnya akan dirilis tahun ini, dan untungnya bagi kita, sudah ada banyak teaser, trailer, dan detail yang bisa kita ungkap. Kita sudah memiliki tanggal rilis Black Ops

Perubahan Fitur Blokir di X dan Dampaknya - photo source: androidheadlines - pibitek.biz - Grok

Grok • Perubahan Fitur Blokir di X dan DampaknyaGrok • Perubahan Fitur Blokir di X dan Dampaknya

Perubahan fitur blokir di X mengganggu privasi pengguna secara signifikan. Banyak pengguna beralih ke Bluesky setelah kebijakan baru diterapkan. Kebijakan penggunaan data...

AI Bantu Negara Atur Klaim Pengangguran - photo from: mashable - pibitek.biz - Regulasi

AI Bantu Negara Atur Klaim PengangguranAI Bantu Negara Atur Klaim Pengangguran

Nevada jadi negara pertama yang coba-coba pakai AI untuk ngurus klaim pengangguran. Keren sih, tapi agak ngeri juga. Negara bagian ini nge-partner sama Google buat program baru yang katanya bisa ngebantu cepetin proses pengajuan klaim dan ngatasi antrian klaim yang super panjang. Program ini memanfaatkan teknologi Google, yang ngecek transkrip (Dik Model AI)

OnePlus Buds Pro 3: Harga Jadi Bintang - credit: droid-life - pibitek.biz - Canggih

OnePlus Buds Pro 3: Harga Jadi BintangOnePlus Buds Pro 3: Harga Jadi Bintang

OnePlus diam-diam merilis sepasang earphone 'Pro' baru, OnePlus Buds Pro 3, di tengah hingar bingar peluncuran Google Pixel di bulan Agustus. Kehadirannya mungkin sedikit terlupakan, tapi OnePlus menawarkan harga yang cukup menarik, jauh lebih rendah daripada Samsung dan Google untuk earphone 'Pro' mereka. OnePlus Buds Pro 3 telah diuji selama {pibitek.biz|2222|Nirkabel}

Sinyal Bahaya Bitcoin & Ethereum - credit for: decrypt - pibitek.biz - Data

Sinyal Bahaya Bitcoin & EthereumSinyal Bahaya Bitcoin & Ethereum

Badai — Seolah-olah langit sedang bersedih, dunia crypto sedang dilanda badai. Data terbaru dari pasar derivatif crypto menunjukkan bahwa para trader sedang panik dan mencium bau 'kehancuran' di depan mata. Pasalnya, aktivitas options menunjukkan prediksi bahwa harga Bitcoin (BTC) dan Ethereum (ETH) akan terjun bebas. Data ini muncul dari laporan Bybit, bursa

TV Pintar Jadi Billboard Digital - photo from: arstechnica - pibitek.biz - Game

Game • TV Pintar Jadi Billboard DigitalGame • TV Pintar Jadi Billboard Digital

Dulu, perusahaan televisi fokus menjual produknya, televisi. Mereka bersaing untuk membuat televisi dengan kualitas terbaik, desain yang menarik, dan harga yang terjangkau. Tetapi sekarang, televisi bukan lagi sekadar kotak elektronik yang menampilkan gambar dan suara. Penonton menjadi aset paling berharga di era digital ini. Seiring berjalannya waktu, produsen televisi menemukan

Reddit Blokir Bot untuk Cegah Penggunaan Data AI Tanpa Izin - credit for: pcmag - pibitek.biz - Google

Google — Reddit Blokir Bot untuk Cegah Penggunaan Data AI Tanpa IzinGoogle — Reddit Blokir Bot untuk Cegah Penggunaan Data AI Tanpa Izin

Reddit memperbarui protokol robots.txt untuk mencegah penggunaan data AI tanpa izin. Google mengingatkan bahwa ada celah untuk menghindari aturan robots.txt,...

Oppo Reno 12F: Desain Stylish dan Kekuatan AI Oppo - image from: gizchina - pibitek.biz - Ponsel

Oppo Reno 12F: Desain Stylish dan Kekuatan AI Oppo • UserOppo Reno 12F: Desain Stylish dan Kekuatan AI Oppo • User

Oppo Reno 12F memiliki desain stylish dengan modul kamera bundar dan Halo Light yang dapat berubah warna. Perangkat ini dilengkapi dengan spesifikasi tinggi, seperti layar 6,67 inci, chipset Dimensity 6300, 12GB RAM, dan baterai 5000mAh. Oppo Reno 12F...

Useful Lists

by Dates :	4 Jul 20244 Jul 2024 6 Jul 20246 Jul 2024 18 Sep 202418 Sep 2024 20 Oct 202420 Oct 2024
by Authors :	Bob Firas SidhartaBob Firas Sidharta Govan SeptiantaGovan Septianta Ineke AndamariIneke Andamari
by Tags :	#api#api #chip#chip #crypto#crypto

Jaringan AI Tanpa Tulang Punggung? Itulah Kelebihannya!

Related Post

Useful Lists