Intuit Optimalkan Manajemen Kubernetes dengan AI



Intuit Optimalkan Manajemen Kubernetes dengan AI - picture source: infoq - pibitek.biz - LLM

picture source: infoq


336-280
TL;DR
  • Intuit menggunakan AI Generatif untuk meningkatkan manajemen Kubernetes.
  • Integrasi K8sGPT dan GenOS mempercepat proses deteksi dan debugging.
  • Implementasi AI Generatif meningkatkan efisiensi dan efektivitas remediasi masalah.

pibitek.biz -Intuit, perusahaan penyedia software finansial, telah mengungkap bagaimana mereka mengatasi kompleksitas pemantauan dan debugging cluster Kubernetes dengan memanfaatkan AI generatif (AI Generatiferatif, AI Generatif). Eksperimen AI Generatif yang dilakukan oleh Intuit bertujuan untuk menyederhanakan proses deteksi, debugging, dan remediasi masalah dalam lingkungan Kubernetes. Lili Wan, Senior Staff Software Engineer, dan Anusha Ragunathan, Principal Software Engineer di Intuit, telah memaparkan detail eksperimen tersebut dan memberikan gambaran umum tentang platform layanan Kubernetes di Intuit.

Intuit memiliki lebih dari 325 cluster Kubernetes yang mendukung lebih dari 7.000 aplikasi dan layanan. Hal ini menghadirkan tantangan tersendiri dalam menjaga kesehatan cluster dan meminimalkan kelelahan bagi para engineer yang bertugas piket. Tingginya kompleksitas platform layanan Kubernetes di Intuit membuat proses observasi dan debugging menjadi sulit. Pertumbuhan aplikasi yang pesat dan perubahan yang sering terjadi pada cluster semakin memperumit situasi. Para engineer sering kali mengalami kelelahan akibat banyaknya sumber data dan peringatan yang harus dipantau, sehingga mempersulit proses deteksi dan remediasi masalah.

Untuk mengatasi tantangan tersebut, Intuit mengidentifikasi tiga area utama yang perlu ditingkatkan: deteksi, debugging, dan remediasi. Untuk meningkatkan kemampuan deteksi, Intuit menerapkan sistem yang disebut "Cluster Golden Signals" yang menyerupai konsep service golden signals. Sistem ini memberikan pandangan terkonsolidasi tentang kesehatan cluster dengan memfilter informasi yang tidak relevan dan fokus pada sinyal penting untuk peringatan. Komponen inti dari cluster Kubernetes dipantau melalui dashboard yang mengagregasi metrik menjadi satu indikator kesehatan: sehat, terdegradasi, atau kritis, menggunakan ekspresi Prometheus.

Pendekatan ini memungkinkan para engineer untuk dengan cepat mengidentifikasi cluster yang bermasalah dan menentukan apakah masalah tersebut terkait dengan layanan atau platform, sehingga mengurangi waktu rata-rata untuk mendeteksi masalah (MTTD). Untuk debugging yang lebih mendalam, Intuit mengintegrasikan alat open-source bernama K8sGPT. Alat ini memindai cluster Kubernetes untuk mendiagnosis dan memilah masalah dengan memanfaatkan pengetahuan yang dikodekan dari Site Reliability Engineer. K8sGPT menggunakan analyzer khusus sumber daya untuk mengekstrak pesan kesalahan yang relevan dari cluster dan memperkayanya dengan wawasan AI.

Dengan menggabungkan metrik Prometheus dengan Golden Signals, K8sGPT dapat mendorong model publik untuk mencari detail tambahan tentang kesalahan. Integrasi ini memberikan lebih banyak konteks untuk mengidentifikasi penyebab potensial dari peringatan. K8sGPT merupakan salah satu dari sepuluh proyek paling banyak berkontribusi dari CNCF (Cloud Native Computing Foundation). Proyek ini dimulai pada Maret 2023 dan saat ini telah mengumpulkan 5.600 bintang dan 88 kontributor. K8sGPT diinstal pada cluster Kubernetes dan mendukung model seperti OpenAI, Azure, Cohere, Amazon Bedrock, Google Gemini, dan model lokal.

K8sGPT ditampilkan bersama proyek-proyek lain seperti kube-burner, Kuasar, KRKN, dan easgress pada konferensi KubeCon EU 2024. K8sGPT dapat dijalankan pada mesin Windows, Mac, dan Linux dan dapat diinstal melalui brew, RPM, DEB, atau APK. Setelah masalah di-debug, langkah selanjutnya adalah remediasi. K8sGPT berintegrasi dengan Large Language Model (LLM) publik dari perusahaan seperti OpenAI, Google, dan Microsoft untuk menyarankan langkah-langkah remediasi untuk kesalahan khusus Kubernetes. Namun, LLM publik tidak memiliki konteks tentang konfigurasi platform khusus Intuit.

Untuk mengatasi masalah ini, Intuit telah mengembangkan AI Generatif operating system (GenOS) milik sendiri, yang menyelenggarakan model lokal yang diperkaya dengan data spesifik Intuit melalui retrieval-augmented generation (RAG). Intuit berencana untuk terus memantau kemajuan dalam mengurangi MTTD dan waktu rata-rata untuk menyelesaikan masalah (MTTR). Mereka juga bermaksud untuk menjelajahi potensi aplikasi AI Generatif di bidang lain seperti manajemen lalu lintas dan debugging Java virtual machine.

Pemanfaatan AI dalam pengelolaan Kubernetes memang menarik, namun penggunaan model AI publik yang terbatas pada konfigurasi platform tertentu merupakan kelemahan besar. Model publik ini tidak dapat memahami kompleksitas dan spesifik yang terdapat dalam setiap platform, sehingga solusi yang dihasilkan cenderung kurang efektif dan bahkan berpotensi berbahaya. Selain itu, ketergantungan pada model AI eksternal menimbulkan risiko privasi dan keamanan data yang sensitif. Ketergantungan pada model AI publik dapat membuka peluang bagi pihak ketiga untuk mengakses dan memanipulasi data yang berharga.

Intuit telah menunjukkan bagaimana AI Generatif dapat membantu menyederhanakan manajemen Kubernetes, meningkatkan efisiensi, dan meningkatkan efektivitas debugging. Dengan integrasi K8sGPT, GenOS, dan RAG, Intuit mampu mempercepat proses deteksi, debugging, dan remediasi masalah. Implementasi ini menunjukkan potensi AI Generatif dalam mengatasi kompleksitas manajemen Kubernetes.