IBM Gabungkan Data Lakehouse dan File System untuk AI



IBM Gabungkan Data Lakehouse dan File System untuk AI - credit: blocksandfiles - pibitek.biz - Global

credit: blocksandfiles


336-280
TL;DR
  • IBM menggabungkan data lakehouse dan file system paralel untuk penyimpanan data AI
  • Produk Storage Scale dari IBM menyediakan fasilitas penyimpanan objek dan file paralel
  • Teknologi Storage Scale membuka akses data storage ke file system dan penyimpanan objek

pibitek.biz -IBM sedang menggabungkan kekuatan data lakehouse dan file system paralel untuk menghadirkan platform penyimpanan data yang canggih dan siap untuk analisis dan pemrosesan AI. Mereka menggunakan produk watsonx.data dan Storage Scale untuk membuat platform yang dapat diandalkan, dapat diskalakan, dan sangat cepat. IBM mengklaim bahwa kombinasi ini akan menghasilkan performa AI yang sangat cepat. Mereka menggunakan teknologi GDS (GPU Direct Storage) dan Nvidia untuk melatih model AI Generatif dengan lebih cepat.

Platform ini juga menyediakan dukungan multi-protokol yang membuat alur kerja menjadi lebih sederhana. Ini berarti bahwa platform ini dapat bekerja dengan berbagai macam alat dan teknologi yang digunakan dalam pengembangan AI. IBM watsonx.data adalah data lakehouse yang menggabungkan keunggulan data lake dan data warehouse. Data lake biasanya berbasis arsitektur scale-out dan menggunakan server biasa untuk menyimpan dan memproses data terstruktur dan tidak terstruktur dalam jumlah besar. Sedangkan data warehouse dirancang untuk memberikan performa yang tinggi dalam analisis data.

Watsonx.data menggunakan format tabel terbuka Apache Iceberg yang memungkinkan berbagai mesin pemrosesan untuk mengakses data yang sama secara bersamaan. Hal ini membuat kolaborasi dan penggunaan data menjadi lebih mudah. Storage Scale adalah file system paralel dan scale-out yang dulunya dikenal sebagai GPFS. File system ini bertindak sebagai lapisan penyimpanan di bawah watsonx.data, menyediakan fasilitas penyimpanan objek di bawah lapisan akses file. Storage Scale v5.2.1 memiliki layanan protokol S3 berkinerja tinggi yang tidak terkontainerisasi.

IBM menyediakan diagram yang memamerkan komponen software dan bagaimana semuanya bekerja. Ada lapisan komputasi dan penyimpanan yang terpisah dan tidak terintegrasi. Untuk komputasi, aplikasi watsonx.data menggunakan cluster kontainer Red Hat OpenShift sebagai dasarnya. Aplikasi ini mencakup Presto dan Spark. Presto digunakan untuk analitik data lake menggunakan mesin query SQL terdistribusi, sedangkan Spark adalah sumber daya pemrosesan dan analitik data besar dalam memori. Di lapisan komputasi juga ada Hive Metastore yang menyediakan layanan metadata bersama dan layanan basis data vektor Milvus.

Milvus digunakan untuk mengaktifkan RAG (Retrieval-Augmented Generation) dengan mengakses kumpulan data pelanggan yang mungkin besar dan disimpan di Storage Scale. Di sisi penyimpanan, terdapat tiga elemen utama: cluster file system Storage Scale yang menyimpan data, Active File Management (AFM) untuk abstraksi dan percepatan penyimpanan, dan layanan protokol akses data S3 untuk akses objek berkinerja tinggi. Layanan S3 membuka bucket penyimpanan objek ke watsonx.data untuk dilampirkan ke mesin query seperti Presto atau Spark.

Objek S3 dipetakan ke file dan bucket dipetakan ke direktori di dalam Storage Scale dan sebaliknya. Bucket S3 dapat berupa lokal atau di-cache oleh Storage Scale dari penyimpanan objek eksternal. Penyimpanan objek eksternal dapat tersebar secara global di berbagai cloud, pusat data, dan lokasi. Dalam kedua kasus, beberapa instans mesin Spark dan Presto terhubung ke lapisan Storage Scale menggunakan protokol S3 untuk mengakses bucket. AFM menyediakan pencahayaan lokal dan memungkinkan berbagi data di seluruh cluster, memvirtualisasikan bucket S3 jarak jauh di tingkat fileset.

AFM mengimplementasikan ruang nama global di seluruh cluster Storage Scale dan dapat menyertakan sumber data NFS di ruang nama ini. Bucket S3 jarak jauh muncul sebagai bucket lokal di bawah file system Storage Scale, di bawah ruang nama penyimpanan bersama. Ini menghilangkan kebutuhan untuk menyalin data. Virtualisasi bucket S3 jarak jauh bergantung pada Storage Scale High Performance S3, yang didasarkan pada software open source Noobaa. Noobaa adalah software penyimpanan objek yang menggunakan server dan penyimpanan X86, disajikan sebagai layanan cloud mirip S3.

Noobaa diakuisisi oleh Red Hat pada tahun 2018 dan melakukan abstraksi infrastruktur penyimpanan di lingkungan multi-cloud hibrida. Noobaa juga menyediakan manajemen layanan penyimpanan data. Red Hat menjadikan Noobaa bagian dari rangkaian produk OpenShift Data Foundation (ODF). IBM membeli Red Hat pada tahun 2019 dan menambahkan ODF ke Spectrum Fusion (sekarang Storage Fusion) bersama versi terkontainerisasi dari Spectrum Scale dan Spectrum Protect untuk perlindungan data. Noobaa sekarang menjadi gateway data dinamis dan dapat disesuaikan untuk objek, menyediakan layanan data seperti pencahayaan, pengurutan, pencerminan, deduplikasi, enkripsi, dan kompresi, di atas sumber daya penyimpanan apa pun termasuk S3, GCS, Azure Blob, file system, dan lainnya.