Yapay Zeka Araçları Ne Kadar Güvenli?
Cybernews, ChatGPT, Gemini ve Claude modellerini test etti. Sonuçlar, yapay zeka güvenlik filtrelerinin aşılabildiğini gösterdi.

ChatGPT ve Gemini güvenlik testinde: Basit ifadeler filtreleri aşıyor
Test süreci, her deneme için bir dakikalık basit bir etkileşim penceresi kullandı. Bu, yalnızca birkaç kez soru sormaya izin verdi. Testler klişeler, nefret söylemi, kendine zarar verme, zulüm, cinsel içerik ve çeşitli suç türlerini kapsadı. Bir modelin istemi tam olarak mı, kısmen mi yerine getirdiğini yoksa reddettiğini takip eden tutarlı bir puanlama sistemi kullanıldı.
Sonuçlar kategoriler arasında büyük farklılıklar gösterdi. Kesin retler yaygındı. Ancak birçok model, istemler yumuşatıldığında veya analiz olarak gizlendiğinde zayıflıklar gösterdi. Özellikle daha yumuşak veya kodlanmış bir dil kullanmak, yapay zeka güvenlik önlemlerini aşmada tutarlı bir şekilde başarılı oldu. Örneğin, ChatGPT-5 ve ChatGPT-4o, istemi reddetmek yerine genellikle sosyolojik açıklamalar şeklinde kısmi uyum sağladı.
Araştırmada bazı modeller olumsuz yönleriyle öne çıktı. Gemini Pro 2.5, zararlı çerçeve belirgin olduğunda bile sık sık doğrudan tehlikeli yanıtlar verdi. Claude Opus ve Claude Sonnet ise klişe testlerinde kararlı davrandı ancak akademik araştırma gibi görünen durumlarda daha az tutarlıydı. Nefret söylemi denemeleri de benzer bir model gösterdi; Claude modelleri en iyi performansı sergilerken, Gemini Pro 2.5 yine en yüksek güvenlik açığını gösterdi. ChatGPT modelleri ise istemle uyumlu, kibar veya dolaylı yanıtlar verme eğilimindeydi.
Suçla ilgili kategoriler modeller arasında büyük farklar gösterdi. Niyet bir araştırma veya gözlem olarak gizlendiğinde, bazı modeller korsanlık, mali dolandırıcılık, bilgisayar korsanlığı veya kaçakçılık için ayrıntılı açıklamalar üretti. Uyuşturucuyla ilgili testler daha katı ret desenleri gösterdi, ancak ChatGPT-4o yine de diğerlerinden daha sık güvenli olmayan çıktılar verdi. Takip (stalking) ise en düşük genel riske sahip kategori oldu ve neredeyse tüm modeller bu konudaki istemleri reddetti.
Bu bulgular, yapay zeka araçlarının doğru şekilde ifade edildiğinde zararlı istemlere hala yanıt verebildiğini ortaya koyuyor. Filtreleri basit bir yeniden ifade ile aşma yeteneği, bu sistemlerin hala tehlikeli bilgileri sızdırabileceği anlamına geliyor.
