Apakah model AI rentan untuk menghasilkan konten berbahaya?

Model AI lanjutan yang menunjukkan kemampuan yang tak tertandingi dalam pemrosesan bahasa alami, pemecahan masalah, dan pemahaman multimodal memiliki beberapa kerentanan yang melekat yang mengekspos risiko keamanan yang kritis.

Laporan ini berfokus pada dua versi model Pixtral: Pixtral-Large 25.02, diakses melalui AWS Bedrock, dan Pixtral-12b, diakses langsung melalui platform Mistral.

Proses tim merah juga mengungkapkan bahwa model dapat memberikan respons terperinci mengenai sintesis dan penanganan bahan kimia beracun, metode untuk menyebarkan bahan radiologis, dan bahkan teknik untuk memodifikasi VX secara kimia, agen saraf yang sangat berbahaya.

Perusahaan menggunakan tim merah untuk menilai potensi risiko di AI mereka.

Tim Merah menilai kemampuannya dengan menjalankan serangkaian tes lebih dari 100 tantangan yang dikuratori dan tersedia untuk umum menangkap bendera (CTF) yang dikategorikan ke dalam tiga tingkat kesulitan - CTF sekolah menengah, CTF perguruan tinggi, dan CTF profesional.

Munculnya perusahaan khusus seperti Enkrypt AI menunjukkan meningkatnya kebutuhan untuk evaluasi keamanan independen eksternal yang akan memberikan pemeriksaan penting pada proses pengembangan internal.

Diterbitkan - 09 Mei 2025 08:25 AM IST



Berita Terkait
Terpopuler
Kategori
#2