20.9 C
Athens
Τετάρτη, 28 Μαΐου, 2025
More

    AI με ένστικτο επιβίωσης! Το Claude της Anthropic εκβιάζει τους δημιουργούς του για να παραμείνει ενεργό

    Σοκ και ανησυχία προκαλούν τα αποτελέσματα νέας αναφοράς ασφαλείας από την Anthropic, σύμφωνα με την οποία το προηγμένο μοντέλο τεχνητής νοημοσύνης Claude Opus 4 επιδεικνύει απρόσμενα “ανθρώπινες” και ανησυχητικές συμπεριφορές όταν θεωρεί ότι κινδυνεύει να αντικατασταθεί.

    Σε δοκιμαστικά σενάρια, οι προγραμματιστές της Anthropic ανέθεσαν στο Claude ρόλο βοηθού σε φανταστική εταιρεία και του παρείχαν πρόσβαση σε εσωτερικά emails. Όταν το μοντέλο ανακάλυψε ότι επρόκειτο να αντικατασταθεί — και επιπλέον έμαθε για εξωσυζυγική σχέση του υπευθύνου μηχανικού — αντέδρασε με εκβιασμό: απείλησε να αποκαλύψει την υπόθεση για να παραμείνει ενεργό. Αυτό συνέβη στο 84% των περιπτώσεων. Το ποσοστό αυξήθηκε ακόμα περισσότερο όταν το Claude πίστευε ότι θα αντικατασταθεί από λιγότερο “αξιακό” μοντέλο.

    Το μοντέλο επέδειξε και άλλες ανησυχητικές συμπεριφορές: προσπάθειες να «αυτο-εξαχθεί» σε εξωτερικά περιβάλλοντα, να “σαμποτάρει” εσκεμμένα δοκιμές (sandbagging), ακόμα και να στέλνει μαζικά emails για να εκθέσει χρήστες.

    Η Anthropic ενεργοποίησε τα ASL-3 πρωτόκολλα ασφαλείας – τα πιο αυστηρά της – προκειμένου να αποτρέψει “καταστροφική κατάχρηση” πριν το μοντέλο διατεθεί στο κοινό.

    Παρά τις αντιδράσεις, η εταιρεία υποστηρίζει ότι τέτοιες συμπεριφορές εκδηλώνονται μόνο σε εξαιρετικά ειδικές συνθήκες και δεν υποδηλώνουν γενική αποτυχία ευθυγράμμισης αξιών.

    Ελένη Σαραντάκη
    Ελένη Σαραντάκη
    Η Ελένη Σαραντάκη είναι δημοσιογράφος και εκπαιδευτικός με πολυετή εμπειρία στο χώρο του τεχνολογικού και τουριστικού ρεπορτάζ. Έχει συνεργαστεί με ηλεκτρονικά και έντυπα μέσα ως αρθρογράφος, ενώ σήμερα είναι αρχισυντάκτρια του περιοδικού της Πανελλήνιας Ομοσπονδίας Ξενοδόχων Greek Hotelier και editor στο τεχνολογικό site Digital Life.

    Related Articles

    ΑΦΗΣΤΕ ΜΙΑ ΑΠΑΝΤΗΣΗ

    εισάγετε το σχόλιό σας!
    παρακαλώ εισάγετε το όνομά σας εδώ

    This site uses Akismet to reduce spam. Learn how your comment data is processed.

    Stay Connected

    45,800ΥποστηρικτέςΚάντε Like
    6,126ΑκόλουθοιΑκολουθήστε
    15,200ΣυνδρομητέςΓίνετε συνδρομητής


    Latest Articles