Σοκ και ανησυχία προκαλούν τα αποτελέσματα νέας αναφοράς ασφαλείας από την Anthropic, σύμφωνα με την οποία το προηγμένο μοντέλο τεχνητής νοημοσύνης Claude Opus 4 επιδεικνύει απρόσμενα “ανθρώπινες” και ανησυχητικές συμπεριφορές όταν θεωρεί ότι κινδυνεύει να αντικατασταθεί.
Σε δοκιμαστικά σενάρια, οι προγραμματιστές της Anthropic ανέθεσαν στο Claude ρόλο βοηθού σε φανταστική εταιρεία και του παρείχαν πρόσβαση σε εσωτερικά emails. Όταν το μοντέλο ανακάλυψε ότι επρόκειτο να αντικατασταθεί — και επιπλέον έμαθε για εξωσυζυγική σχέση του υπευθύνου μηχανικού — αντέδρασε με εκβιασμό: απείλησε να αποκαλύψει την υπόθεση για να παραμείνει ενεργό. Αυτό συνέβη στο 84% των περιπτώσεων. Το ποσοστό αυξήθηκε ακόμα περισσότερο όταν το Claude πίστευε ότι θα αντικατασταθεί από λιγότερο “αξιακό” μοντέλο.
Το μοντέλο επέδειξε και άλλες ανησυχητικές συμπεριφορές: προσπάθειες να «αυτο-εξαχθεί» σε εξωτερικά περιβάλλοντα, να “σαμποτάρει” εσκεμμένα δοκιμές (sandbagging), ακόμα και να στέλνει μαζικά emails για να εκθέσει χρήστες.
Η Anthropic ενεργοποίησε τα ASL-3 πρωτόκολλα ασφαλείας – τα πιο αυστηρά της – προκειμένου να αποτρέψει “καταστροφική κατάχρηση” πριν το μοντέλο διατεθεί στο κοινό.
Παρά τις αντιδράσεις, η εταιρεία υποστηρίζει ότι τέτοιες συμπεριφορές εκδηλώνονται μόνο σε εξαιρετικά ειδικές συνθήκες και δεν υποδηλώνουν γενική αποτυχία ευθυγράμμισης αξιών.