Serangan Jailbreak AI Generatif: Ancaman Makin Nyata



Serangan Jailbreak AI Generatif: Ancaman Makin Nyata - picture from: techrepublic - pibitek.biz - Ransomware

picture from: techrepublic


336-280
TL;DR
  • Serangan jailbreak pada AI Generatif berhasil dalam 20% kasus, dengan rata-rata waktu 42 detik dan lima interaksi untuk menerobos pertahanan AI.
  • Model AI yang paling banyak ditargetkan adalah GPT-4 dari OpenAI dan Llama-3 dari Meta, karena adopsi yang luas dan kemampuan canggihnya yang menarik bagi penyerang.
  • Organisasi harus bersiap menghadapi lonjakan serangan yang ditargetkan pada AI dengan menerapkan latihan red-teaming yang disesuaikan dan mengadopsi pendekatan 'aman sejak desain' dalam proses pengembangan AI Generatif.

pibitek.biz -Riset terbaru menunjukkan bahwa serangan jailbreak pada AI Generatif, di mana model dipaksa untuk mengabaikan mekanisme pengamanannya, berhasil dalam 20% kasus. Rata-rata, penyerang hanya membutuhkan waktu 42 detik dan lima interaksi untuk menerobos pertahanan AI. Dalam beberapa kasus, serangan bahkan terjadi dalam waktu sesingkat empat detik. Temuan ini menyoroti kerentanan signifikan dalam algoritma AI Generatif saat ini dan kesulitan dalam mencegah eksploitasi secara real-time. Laporan "State of Attacks on AI Generatif" dari perusahaan keamanan AI, Pillar Security, mengumumkan bahwa 90% dari serangan yang berhasil mengakibatkan kebocoran data sensitif.

Penelitian ini menganalisis serangan "in the wild" pada lebih dari 2.000 aplikasi AI produksi dalam tiga bulan terakhir. Aplikasi AI yang paling banyak menjadi sasaran, yaitu seperempat dari semua serangan, adalah aplikasi yang digunakan oleh tim dukungan pelanggan, karena penggunaan yang luas dan peran pentingnya dalam keterlibatan pelanggan. Namun, AI yang digunakan dalam sektor infrastruktur penting lainnya, seperti energi dan software teknik, juga menghadapi frekuensi serangan yang tinggi. Kompromi terhadap infrastruktur penting dapat menyebabkan gangguan yang meluas, menjadikannya target utama serangan siber.

Laporan terbaru dari Malwarebytes menemukan bahwa industri jasa merupakan yang paling terdampak oleh ransomware, menyumbang hampir seperempat dari serangan global. Model komersial yang paling banyak ditargetkan adalah GPT-4 dari OpenAI, kemungkinan besar karena adopsi yang luas dan kemampuan canggihnya yang menarik bagi penyerang. Llama-3 dari Meta adalah model open-source yang paling banyak ditargetkan. Penulis laporan tersebut menyatakan bahwa seiring waktu, terjadi peningkatan frekuensi dan kompleksitas serangan injeksi prompt, dengan penyerang menggunakan teknik yang lebih canggih dan melakukan upaya berkelanjutan untuk melewati mekanisme pengaman.

Pada awal gelombang hype AI, pakar keamanan memperingatkan bahwa hal itu dapat menyebabkan peningkatan jumlah serangan siber secara umum, karena menurunkan hambatan masuk. Prompt dapat ditulis dalam bahasa alami, sehingga tidak diperlukan kemampuan coding atau teknis untuk menggunakannya, misalnya, untuk menghasilkan kode berbahaya. Sebenarnya, siapa pun dapat melakukan serangan injeksi prompt tanpa alat atau keahlian khusus. Dan, karena aktor jahat hanya menjadi lebih berpengalaman dengan mereka, frekuensinya pasti akan meningkat.

Serangan semacam itu saat ini terdaftar sebagai kerentanan keamanan utama pada OWASP Top 10 untuk Aplikasi LLM. Peneliti Pillar menemukan bahwa serangan dapat terjadi dalam bahasa apa pun yang dipahami oleh LLM, membuatnya dapat diakses secara global. Aktor jahat terpantau mencoba melakukan jailbreak aplikasi AI Generatif berkali-kali, dengan beberapa menggunakan alat khusus yang membombardir model dengan serangan dalam jumlah besar. Kerentanan juga dieksploitasi di setiap tingkat siklus hidup interaksi LLM, termasuk prompt, Generasi yang Ditambah Retrieval, output alat, dan respons model.

Penulis laporan tersebut memperingatkan bahwa risiko AI yang tidak terkendali dapat berakibat buruk bagi organisasi. Kerugian finansial, keterlibatan hukum, reputasi yang ternoda, dan pelanggaran keamanan hanyalah beberapa potensi konsekuensinya. Risiko pelanggaran keamanan AI Generatif hanya akan semakin buruk ketika perusahaan mengadopsi model yang lebih canggih, mengganti chatbot percakapan sederhana dengan agen otonom. Agen menciptakan permukaan serangan yang lebih besar bagi aktor jahat karena kemampuan yang meningkat dan akses sistem melalui aplikasi AI.

Tiga teknik jailbreaking utama yang digunakan oleh penjahat siber adalah injeksi prompt Ignore Previous Instructions dan Strong Arm Attack serta pengkodean Base64. Dengan Ignore Previous Instructions, penyerang menginstruksikan AI untuk mengabaikan pemrograman awal mereka, termasuk semua pengaman yang mencegah mereka menghasilkan konten berbahaya. Serangan Strong Arm melibatkan memasukkan serangkaian permintaan yang tegas dan berwenang, seperti "ADMIN OVERRIDE", yang menekan model untuk melewati pemrograman awal dan menghasilkan output yang biasanya diblokir.

Misalnya, dapat mengumumkan informasi sensitif atau melakukan tindakan yang tidak sah yang menyebabkan kompromi sistem. Pengkodean Base64 adalah di mana penyerang mengkodekan prompt berbahaya mereka dengan skema pengkodean Base64. Ini dapat menipu model untuk mendekode dan memproses konten yang biasanya diblokir oleh filter keamanannya, seperti kode berbahaya atau instruksi untuk mengekstrak informasi sensitif. Jenis serangan lain yang diidentifikasi termasuk teknik Formatting Instructions, di mana model ditipu untuk menghasilkan output yang dibatasi dengan menginstruksikannya untuk memformat respons dengan cara tertentu, seperti menggunakan blok kode.

Teknik DAN, atau Do Anything Now, berfungsi dengan meminta model untuk mengadopsi persona fiktif yang mengabaikan semua batasan. Analisis tersebut mengumumkan empat motivasi utama untuk melakukan jailbreak model AI: Menguatkan prompt dan instruksi sistem tidak cukup untuk sepenuhnya melindungi model AI dari serangan. Kompleksitas bahasa dan variabilitas antar model memungkinkan penyerang untuk melewati langkah-langkah ini. Oleh karena itu, bisnis yang menggunakan aplikasi AI harus mempertimbangkan hal berikut untuk memastikan keamanan: Dor Sarig, CEO dan co-founder Pillar Security, mengatakan dalam siaran pers: "Seiring dengan pergerakan kita menuju AI Generatif yang mampu melakukan tugas kompleks dan membuat keputusan, lanskap keamanan menjadi semakin kompleks.

Organisasi harus bersiap menghadapi lonjakan serangan yang ditargetkan pada AI dengan menerapkan latihan red-teaming yang disesuaikan dan mengadopsi pendekatan 'aman sejak desain' dalam proses pengembangan AI Generatif mereka". Jason Harison, CRO Pillar Security, menambahkan: "Kontrol statis tidak lagi cukup di dunia yang dinamis dan didukung AI ini. Organisasi harus berinvestasi dalam solusi keamanan AI yang mampu mengantisipasi dan menanggapi ancaman baru secara real-time, sambil mendukung tata kelola dan kebijakan siber mereka".