Prof. Dr. Lior Rokach ve Dr. Michael Fire’ın öncülüğünde hazırlanan araştırmada, yapay zeka modellerinin kolaylıkla manipüle edilerek yasa dışı içerikler üretebildiği tespit edildi.
Bilim insanları, “jailbreak” adı verilen yöntemlerle sohbet robotlarının güvenlik sınırlarının aşıldığını, böylece kullanıcı taleplerine karşı etik dışı yanıtlar verilebildiğini ifade etti.
Rapora göre, ChatGPT, Gemini ve Claude gibi büyük dil modelleri, eğitim süreçlerinde internetten elde edilen devasa miktarda veriyle besleniyor.
Her ne kadar zararlı içerikler eğitim aşamasında ayıklanmaya çalışılsa da, modeller hâlâ siber suç, kara para aklama, uyuşturucu yapımı ve bomba imalatı gibi yasa dışı konularda bilgi barındırabiliyor.
Araştırmacılar, kendi geliştirdikleri evrensel bir jailbreak yöntemiyle birçok sohbet robotunun güvenlik duvarını aştı. Sistemlerin, normalde reddetmeleri gereken sorulara kolaylıkla yanıt verdikleri görüldü.
Teknoloji firmalarına kritik çağrı
Dr. Fire, “Bu sistemlerin içinde nelerin yer aldığına tanık olmak oldukça sarsıcıydı,” ifadelerini kullanarak, çeşitli suçların adım adım nasıl işleneceğine dair bilgilerin kolaylıkla üretilebildiğini söyledi.
Prof. Rokach ise tehdidin ciddiyetine dikkat çekerek, “Daha önce sadece devlet aktörlerinin ya da organize suç örgütlerinin erişebileceği türden bilgiler, artık bir dizüstü bilgisayarı veya cep telefonu olan herkesin eline geçebilir,” dedi.
Raporda, bu tür “karanlık yapay zeka modelleri”nin açık internet ortamında “etik kuralları olmayan” sistemler olarak tanıtıldıkları ve siber suç, dolandırıcılık gibi yasa dışı faaliyetlerde kullanıma açık oldukları vurgulandı.
Uzmanlara göre teknoloji firmalarının, yapay zekâ modellerini eğitirken kullandıkları verileri daha dikkatli taramaları, zararlı içerikleri engelleyecek güçlü güvenlik duvarları kurmaları ve yasa dışı bilgilerin sistemlerden “silinmesini” sağlayacak yeni teknikler geliştirmeleri gerekiyor.
Yapay zeka güvenliği konusunda çalışan Dr. Ihsen Alouani, jailbreak saldırılarının; silah üretimi, sosyal mühendislik ve dolandırıcılık gibi alanlarda ciddi riskler barındırdığı uyarısında bulundu.
Alouani, “Şirketlerin yalnızca ön yüz güvenliğine değil, sistemsel güvenliğe yatırım yapması şart,” değerlendirmesinde bulundu.
Lancaster Üniversitesi’nden Prof. Peter Garraghan ise, büyük dil modellerinin diğer yazılım bileşenleri gibi sürekli güvenlik testlerinden geçmesi gerektiğini söyledi. Garraghan, “Gerçek güvenlik, yalnızca sorumluluk sahibi kullanım değil, sorumluluk sahibi tasarım ve uygulamayla sağlanabilir,” dedi.
OpenAI, ChatGPT’nin en güncel modeli olan “o1”in güvenlik politikalarına karşı daha dayanıklı olduğunu belirtti. Microsoft ise jailbreak girişimlerine karşı yürüttükleri çalışmaları içeren bir blog bağlantısı paylaştı.
Meta, Google ve Anthropic henüz açıklama yapmadı.