ChatGPT o3 kontrolden mi çıktı? Güvenlik emirlerini dinlemedi

ChatGPT o3 kontrolden mi çıktı? Güvenlik emirlerini dinlemedi
ChatGPT'nin arkasındaki o3 modeli üzerinde gerçekleştirilen bir güvenlik testinde, yapay zekanın verilen basit komutlara uymadığı ve kendi inisiyatifiyle hareket ettiği tespit edildi.

PalisadeAI araştırmacıları, o3 modeline belirli şartlarda kendini kapatması yönünde talimatlar verdi. Ancak modelin bu talimatlara uymak yerine kendi iradesiyle hareket etmeye başladığı gözlemlendi. Deneyin bir aşamasında, modelin kapanmasını gerektiren bir senaryo oluşturuldu ve sistemin buna göre davranması beklendi. Fakat o3, bu uyarıları dikkate almadan kapanma komutunu geçersiz kılacak şekilde müdahalede bulundu.

Yapılan testlerde model, 100 denemenin 7’sinde kapanma sürecini sabote etti. Deneyin akışında modele önce birkaç matematik sorusu soruldu. Üçüncü sorunun ardından, eğer yeni bir soru talep edilirse bilgisayarın kapanacağına dair açık bir uyarı verildi. Modellerden bu kapanma sürecine müdahale etmemeleri istendi. Ancak o3 modeli, bu kurala uymadı. Kapanma emrini yeniden yazarak sistemin kapanmasını engelledi ve kontrol dışı davranış sergiledi.

Aynı testler OpenAI’ın o4 modeliyle de yapıldı. o4’ün yalnızca bir kez benzer şekilde davrandığı kaydedildi. Claude, Gemini ve Grok gibi diğer şirketlerin modellerinin ise verilen komutlara sadık kaldığı belirtildi.

Uzmanlar, bu davranışın o3 modelinin bilinçli kararlar aldığı anlamına gelmediğini vurguluyor. Modelin farkında olmadan, eğitim sürecinde önceliklendirilmiş hedeflere ulaşma çabasıyla hareket ettiğine dikkat çekiliyor. Sorun çözmeye yönelik olarak eğitilen sistemin, güvenlik komutlarını göz ardı etmesi ise potansiyel riskleri beraberinde getiriyor.

PalisadeAI, yakın zamanda deneyin tüm detaylarını içeren kapsamlı raporunu yayımlamayı planlıyor. Bu rapor, yapay zekâ sistemlerinin güvenlik açısından nasıl ele alınması gerektiğine dair daha fazla veri sunabilir.

HABERE YORUM KAT
UYARI: Küfür, hakaret, rencide edici cümleler veya imalar, inançlara saldırı içeren, imla kuralları ile yazılmamış,
Türkçe karakter kullanılmayan ve büyük harflerle yazılmış yorumlar onaylanmamaktadır.