IBM Gabungkan Data Lakehouse dan File System untuk AI

https://www.facebook.com/pibitek

September 11, 2024 Dicky

credit: blocksandfiles

TL;DR

IBM menggabungkan data lakehouse dan file system paralel untuk penyimpanan data AI
Produk Storage Scale dari IBM menyediakan fasilitas penyimpanan objek dan file paralel
Teknologi Storage Scale membuka akses data storage ke file system dan penyimpanan objek

pibitek.biz -IBM sedang menggabungkan kekuatan data lakehouse dan file system paralel untuk menghadirkan platform penyimpanan data yang canggih dan siap untuk analisis dan pemrosesan AI. Mereka menggunakan produk watsonx.data dan Storage Scale untuk membuat platform yang dapat diandalkan, dapat diskalakan, dan sangat cepat. IBM mengklaim bahwa kombinasi ini akan menghasilkan performa AI yang sangat cepat. Mereka menggunakan teknologi GDS (GPU Direct Storage) dan Nvidia untuk melatih model AI Generatif dengan lebih cepat.

Platform ini juga menyediakan dukungan multi-protokol yang membuat alur kerja menjadi lebih sederhana. Ini berarti bahwa platform ini dapat bekerja dengan berbagai macam alat dan teknologi yang digunakan dalam pengembangan AI. IBM watsonx.data adalah data lakehouse yang menggabungkan keunggulan data lake dan data warehouse. Data lake biasanya berbasis arsitektur scale-out dan menggunakan server biasa untuk menyimpan dan memproses data terstruktur dan tidak terstruktur dalam jumlah besar. Sedangkan data warehouse dirancang untuk memberikan performa yang tinggi dalam analisis data.

Watsonx.data menggunakan format tabel terbuka Apache Iceberg yang memungkinkan berbagai mesin pemrosesan untuk mengakses data yang sama secara bersamaan. Hal ini membuat kolaborasi dan penggunaan data menjadi lebih mudah. Storage Scale adalah file system paralel dan scale-out yang dulunya dikenal sebagai GPFS. File system ini bertindak sebagai lapisan penyimpanan di bawah watsonx.data, menyediakan fasilitas penyimpanan objek di bawah lapisan akses file. Storage Scale v5.2.1 memiliki layanan protokol S3 berkinerja tinggi yang tidak terkontainerisasi.

IBM menyediakan diagram yang memamerkan komponen software dan bagaimana semuanya bekerja. Ada lapisan komputasi dan penyimpanan yang terpisah dan tidak terintegrasi. Untuk komputasi, aplikasi watsonx.data menggunakan cluster kontainer Red Hat OpenShift sebagai dasarnya. Aplikasi ini mencakup Presto dan Spark. Presto digunakan untuk analitik data lake menggunakan mesin query SQL terdistribusi, sedangkan Spark adalah sumber daya pemrosesan dan analitik data besar dalam memori. Di lapisan komputasi juga ada Hive Metastore yang menyediakan layanan metadata bersama dan layanan basis data vektor Milvus.

Milvus digunakan untuk mengaktifkan RAG (Retrieval-Augmented Generation) dengan mengakses kumpulan data pelanggan yang mungkin besar dan disimpan di Storage Scale. Di sisi penyimpanan, terdapat tiga elemen utama: cluster file system Storage Scale yang menyimpan data, Active File Management (AFM) untuk abstraksi dan percepatan penyimpanan, dan layanan protokol akses data S3 untuk akses objek berkinerja tinggi. Layanan S3 membuka bucket penyimpanan objek ke watsonx.data untuk dilampirkan ke mesin query seperti Presto atau Spark.

Objek S3 dipetakan ke file dan bucket dipetakan ke direktori di dalam Storage Scale dan sebaliknya. Bucket S3 dapat berupa lokal atau di-cache oleh Storage Scale dari penyimpanan objek eksternal. Penyimpanan objek eksternal dapat tersebar secara global di berbagai cloud, pusat data, dan lokasi. Dalam kedua kasus, beberapa instans mesin Spark dan Presto terhubung ke lapisan Storage Scale menggunakan protokol S3 untuk mengakses bucket. AFM menyediakan pencahayaan lokal dan memungkinkan berbagi data di seluruh cluster, memvirtualisasikan bucket S3 jarak jauh di tingkat fileset.

AFM mengimplementasikan ruang nama global di seluruh cluster Storage Scale dan dapat menyertakan sumber data NFS di ruang nama ini. Bucket S3 jarak jauh muncul sebagai bucket lokal di bawah file system Storage Scale, di bawah ruang nama penyimpanan bersama. Ini menghilangkan kebutuhan untuk menyalin data. Virtualisasi bucket S3 jarak jauh bergantung pada Storage Scale High Performance S3, yang didasarkan pada software open source Noobaa. Noobaa adalah software penyimpanan objek yang menggunakan server dan penyimpanan X86, disajikan sebagai layanan cloud mirip S3.

Noobaa diakuisisi oleh Red Hat pada tahun 2018 dan melakukan abstraksi infrastruktur penyimpanan di lingkungan multi-cloud hibrida. Noobaa juga menyediakan manajemen layanan penyimpanan data. Red Hat menjadikan Noobaa bagian dari rangkaian produk OpenShift Data Foundation (ODF). IBM membeli Red Hat pada tahun 2019 dan menambahkan ODF ke Spectrum Fusion (sekarang Storage Fusion) bersama versi terkontainerisasi dari Spectrum Scale dan Spectrum Protect untuk perlindungan data. Noobaa sekarang menjadi gateway data dinamis dan dapat disesuaikan untuk objek, menyediakan layanan data seperti pencahayaan, pengurutan, pencerminan, deduplikasi, enkripsi, dan kompresi, di atas sumber daya penyimpanan apa pun termasuk S3, GCS, Azure Blob, file system, dan lainnya.

Nintendo • Kabar Terbaru tentang PS5 Pro: Upgrade GPU CPUNintendo • Kabar Terbaru tentang PS5 Pro: Upgrade GPU CPU

Sony sedang mempertimbangkan untuk merilis PS5 Pro, konsol yang lebih kuat dari PS5. Rumor mengatakan PS5 Pro akan meningkatkan performa dengan peningkatan pada GPU dan CPU. Peningkatan performa ini akan membuat game terlihat lebih mulus dan detail.

TAGTHAi Thailand: Solusi Pintar untuk Perjalanan yang Dipersonalisasi - photo owner: itnews - pibitek.biz - Tim

AI — TAGTHAi Thailand: Solusi Pintar untuk Perjalanan yang DipersonalisasiAI — TAGTHAi Thailand: Solusi Pintar untuk Perjalanan yang Dipersonalisasi

Thai Digital Platform Social Enterprise Co. , Ltd. (TAGTHAi), aplikasi perjalanan resmi Thailand, merilis fitur "Design My Trip". Fitur ini merupakan alat bertenaga AI yang dirancang untuk menyederhanakan perencanaan perjalanan bagi para wisatawan. Melalui "Design My Trip", wisatawan dapat menciptakan rencana perjalanan yang dipersonalisasi sesuai dengan preferensi mereka. TAGTHAi berkolaborasi

Kejutan Kripto, Siapa yang Bakal Jadi Raja di Tahun Depan? - credit to: bravenewcoin - pibitek.biz - Game

Ekosistem • Kejutan Kripto, Siapa yang Bakal Jadi Raja di Tahun Depan?Ekosistem • Kejutan Kripto, Siapa yang Bakal Jadi Raja di Tahun Depan?

DOGEN, koin meme yang bikin kamu kaya, diprediksi bakal ngegas 700% sebelum pre-sale selesai. Cardano, platform yang terkenal ramah lingkungan, ngebantu ngatur...

Palworld, Permainan Survival, Geluti atas Kemeja dengan Pokemon - the photo via: gamesradar - pibitek.biz - Instruksi

Palworld, Permainan Survival, Geluti atas Kemeja dengan PokemonPalworld, Permainan Survival, Geluti atas Kemeja dengan Pokemon

Palworld, permainan survival yang populer, kini sedang melakukan upaya untuk menguasai tren dengan memasuki kerja sama dengan Sony. Ini ditandai dengan kemitraan antara Sony Music dan anak perusahaannya, Aniplex, dengan pengembang Palworld, Pocketpair. Tujuan dari kemitraan ini adalah untuk memperluas dan membangun bisnis baru yang terkait dengan game hit ini. Dalam {pibitek.biz.1919.Wiw}

LinkedIn Panen Data User Buat Latih AI - picture owner: darkreading - pibitek.biz - Zoom

LinkedIn Panen Data User Buat Latih AILinkedIn Panen Data User Buat Latih AI

Zoom • LinkedIn, platform jejaring sosial profesional yang terkenal, ketahuan lagi-lagi. Platform ini diam-diam memanfaatkan data dari penggunanya untuk melatih model AI miliknya. Waduh, ngga ada pemberitahuan sama sekali lho! Padahal, penggunaan data user untuk melatih AI ini sebenarnya sudah terjadi sejak lama. Tapi, LinkedIn baru menyadari kalau mereka lupa memperbarui kebijakan

Kelompok Kimsuky Korea Utara Lakukan Phishing pada Universitas - the photo via: infosecurity-magazine - pibitek.biz - Keamanan Siber

Autentikasi • Kelompok Kimsuky Korea Utara Lakukan Phishing pada UniversitasAutentikasi • Kelompok Kimsuky Korea Utara Lakukan Phishing pada Universitas

Kelompok Kimsuky dari Korea Utara telah melakukan serangan phishing pada universitas-universitas di seluruh dunia, termasuk di Korea Selatan, Amerika Serikat, dan Eropa. Kelompok ini telah aktif sejak tahun 2012 dan dikenal karena kemampuan mereka dalam melakukan serangan phishing yang canggih. Kimsuky biasanya menyamar sebagai akademisi atau jurnalis untuk mengelabui korban

AI Membentuk Masa Depan Insinyur Software - credit to: cnbc - pibitek.biz - Akses

Ahli – AI Membentuk Masa Depan Insinyur SoftwareAhli – AI Membentuk Masa Depan Insinyur Software

CEO Nvidia, Jensen Huang, pernah mengatakan bahwa tugas kita adalah menciptakan teknologi komputasi sehingga tidak ada lagi yang perlu memprogram. Namun, dalam beberapa tahun terakhir, insinyur software masih sangat dibutuhkan, dengan permintaan akan insinyur yang terampil diperkirakan akan tumbuh 25% dalam dekade berakhir tahun 2032. Namun, apakah hype AI sebagai

Google Akan Nonaktifkan Ekstensi Klasik di Chrome - credit to: ghacks - pibitek.biz - Beta

Google Akan Nonaktifkan Ekstensi Klasik di ChromeGoogle Akan Nonaktifkan Ekstensi Klasik di Chrome

Chrome – Google akan menonaktifkan ekstensi klasik di Chrome mulai Juni ini. Ekstensi Manifest V2 akan digantikan oleh Manifest V3 yang memiliki keterbatasan fitur. Blocker konten tidak akan lagi seefektif seperti sebelumnya di browser berbasis Chromium.

Useful Lists

by Dates :	3 Jul 20243 Jul 2024 6 Aug 20246 Aug 2024 3 Sep 20243 Sep 2024 28 Sep 202428 Sep 2024 3 Oct 20243 Oct 2024
by Authors :	Govan SeptiantaGovan Septianta Kristin Wiwied IndrayaktiKristin Wiwied Indrayakti Ratih Aini KusumawardhaniRatih Aini Kusumawardhani Aris Banu PradaniAris Banu Pradani
by Tags :	#bahasa inggris#bahasa inggris #ekosistem#ekosistem #rahasia#rahasia

IBM Gabungkan Data Lakehouse dan File System untuk AI

Related Post

Useful Lists