- Jaringan AI tanpa tulang punggung dapat mengurangi biaya.
- Arsitektur jaringan 'hanya-rel' menghilangkan switch spine yang mahal.
- Jaringan 'hanya-rel' menghemat biaya dan daya listrik.
pibitek.biz -Membangun aplikasi yang menjangkau seluruh pusat data dengan ratusan hingga ribuan layanan mikro yang berjalan di server yang tak terhitung jumlahnya, dan harus dipanggil dalam waktu mikrodetik untuk menciptakan ilusi aplikasi monolitik, membutuhkan jaringan Clos dengan konektivitas tinggi dan bandwidth besar. Bayangkan seperti ini, server aplikasi, server middleware, server database, dan server penyimpanan bisa berada di mana saja dalam pusat data. Kamu tidak pernah tahu server mana yang perlu berkomunikasi dengan server lainnya.
2 – Serangan SIM-Swap: Akun SEC Diretas Secara Besar-Besaran 2 – Serangan SIM-Swap: Akun SEC Diretas Secara Besar-Besaran
3 – Google Kerjasama dengan Reaktor Nuklir untuk AI 3 – Google Kerjasama dengan Reaktor Nuklir untuk AI
Oleh karena itu, kamu harus menyediakan bandwidth dan konektivitas berlebih untuk meminimalisir waktu tunda. Namun, jaringan Clos dengan bandwidth tinggi tidak selalu menjadi arsitektur terbaik untuk sistem pelatihan AI, terutama mengingat mahalnya biaya jaringan untuk kluster AI. Karena biaya dan kompleksitas jaringan AI terus meningkat, ada kebutuhan untuk mencari solusi yang lebih efisien. Itulah mengapa para peneliti di Computer Science and Artificial Intelligence Laboratory (CSAIL) di MIT berkolaborasi dengan tim jaringan di Meta Platforms untuk mencari solusi baru.
Mereka memutuskan untuk mengeksplorasi solusi yang sudah ada dan mencoba menghilangkan lapisan switching yang mahal dari jaringan AI. Hasilnya adalah arsitektur jaringan 'hanya-rel' yang dapat secara signifikan mengurangi biaya tanpa mengorbankan kinerja pelatihan AI. Arsitektur jaringan ini, yang dijelaskan dalam makalah penelitian yang dipresentasikan pada konferensi Hot Interconnects 2024, menawarkan pendekatan yang sangat inovatif. Arsitektur Clos adalah salah satu cara menghubungkan setiap node atau elemen dalam node (seperti GPU atau DPU) ke semua node atau elemen lainnya di seluruh pusat data.
Tetapi, ada cara lain untuk menghubungkan perangkat dalam jaringan, seperti topologi Dragonfly yang banyak digunakan di pusat-pusat superkomputer. Sayangnya, topologi Dragonfly mengharuskan jaringan dikonfigurasi ulang setiap kali perangkat baru ditambahkan. Ini berbeda dengan topologi Clos yang menawarkan fleksibilitas untuk menambahkan perangkat dengan mudah. Namun, topologi Dragonfly menawarkan latensi yang konsisten di seluruh jaringan, tidak seperti topologi Clos yang memiliki variasi latensi.
Sistem pelatihan AI besar biasanya menggunakan ribuan GPU untuk melatih model besar dengan triliunan parameter dalam waktu yang relatif singkat. Misalnya, Meta Platforms menggunakan 24.576 GPU untuk melatih model Llama 3.1 405B. Diperkirakan model generasi berikutnya akan membutuhkan 32.768 GPU dalam satu kluster. Jaringan Clos yang digunakan dalam sistem ini biasanya terdiri dari switch leaf dan spine Ethernet, semuanya mendukung Remote Direct Memory Access (RDMA) yang memungkinkan GPU berbagi data dengan semua GPU lainnya dalam jaringan secara bersamaan menggunakan topologi all-to-all.
Menurut Weiyan Wang, mahasiswa doktoral di CSAIL, membangun jaringan Clos dengan bandwidth tinggi untuk menghubungkan lebih dari 32.000 GPU akan menghabiskan biaya $153 juta dan mengonsumsi daya listrik sebesar 4,7 megawatt. Bayangkan, membangun jaringan yang menghubungkan 30.000 GPU dengan kecepatan 400 Gb/sec menggunakan kain bandwidth bisection penuh akan menghabiskan biaya $200 juta! Para peneliti di CSAIL dan Meta Platforms meneliti pola lalu lintas data di seluruh rel dan switch spine saat proses pelatihan LLM (Large Language Model) berlangsung. Hasilnya mengejutkan! Mereka menemukan bahwa sebagian besar lalu lintas data tetap berada di dalam rel dan tidak menyebar ke switch spine.
Ini menunjukkan bahwa switch spine yang mahal tidak diperlukan karena NVSwitch yang ada di setiap node HGX (High-performance Graphics eXtended) memiliki bandwidth dan latensi yang cukup untuk menangani komunikasi data yang jarang terjadi di antara rel. Dengan mengadopsi arsitektur jaringan 'hanya-rel', switch spine dapat dihilangkan. Ini berarti bahwa data yang perlu ditransfer antar-rel dapat dilakukan melalui NVSwitch yang ada di dalam HGX, bukan melalui switch spine yang mahal. Jaringan 'hanya-rel' sangat efisien karena dapat mengurangi jumlah switch dan transceiver yang dibutuhkan, yang merupakan komponen termahal dalam keseluruhan jaringan.
Dengan mengadopsi arsitektur jaringan 'hanya-rel', biaya jaringan dapat dikurangi hingga $1,3 juta dan daya listrik yang dibutuhkan dapat dihemat hingga 41 kilowatt. Penting untuk dicatat bahwa kinerja pelatihan LLM tidak terpengaruh secara signifikan dengan penggunaan jaringan 'hanya-rel'. Hanya ada sedikit penurunan performa (11,2%) dalam komunikasi all-to-all dalam kluster. Namun, komunikasi all-to-all hanya menyumbang 26,5% dari total komunikasi dalam model LLM yang dilatih, sehingga dampaknya pada performa keseluruhan sangat kecil.
Ini adalah contoh nyata dari bagaimana inovasi kecil dapat menghasilkan dampak besar dalam dunia komputasi AI. Dengan menghilangkan komponen yang tidak perlu, seperti switch spine, jaringan AI dapat menjadi lebih efisien dan terjangkau. Tentu, ada beberapa hal yang perlu diperhatikan. Misalnya, penempatan shard dan replika yang menggerakkan tensor parallelism dan data parallelism harus berada pada rel yang sama dalam jaringan agar jaringan 'hanya-rel' berfungsi dengan baik. Meskipun demikian, temuan ini membuka jalan baru untuk pengembangan arsitektur jaringan AI di masa depan.