Μπορείτε να κάνετε jailbreak του τελευταίου μέτρου ασφαλείας AI; Οι ερευνητές θέλουν να δοκιμάσετε – και να προσφέρετε έως και $ 15.000 αν πετύχετε.
Τη Δευτέρα, η εταιρεία δημοσίευσε ένα νέο άρθρο με την παρουσίαση του συστήματος ασφαλείας με βάση τα συνταγματικά ταξινομητές. Η διαδικασία βασίζεται στο συνταγματικό AI, ένα σύστημα που ο ανθρωπιστής χρησιμοποίησε για να κάνει τον Claude “αβλαβές”, στο οποίο ένα AI βοηθά στον έλεγχο και τη βελτίωση ενός άλλου. Κάθε μέθοδος καθοδηγείται από ένα σύνταγμα ή από έναν “κατάλογο αρχών”, τον οποίο το μοντέλο πρέπει να συμμορφώνεται με, ο ανθρωπός εξηγείται στο blog.
Επίσης: Το μοντέλο τεχνητής νοημοσύνης Deepseek είναι εύκολο στη Jailbreitsa – και χειρότερα
Εκπαιδεύτηκε από συνθετικά δεδομένα, αυτοί οι “ταξινομητές” ήταν σε θέση να φιλτράρουν τις προσπάθειες “συντριπτικής πλειοψηφίας” από το jailbreak χωρίς υπερβολικές επαναλήψεις (λανθασμένες σημαίες αβλαβής περιεχομένου ως επιβλαβείς), σύμφωνα με τον ανθρωπότη.
“Οι αρχές καθορίζουν τις κατηγορίες περιεχομένου που επιτρέπονται και απαγορεύονται (για παράδειγμα, επιτρέπονται συνταγές προσποίησης, αλλά οι συνταγές για το αέριο μουστάρδας δεν είναι)”, δήλωσε ο Anthropus. Οι ερευνητές παρείχαν συμβουλές λαμβάνοντας υπόψη τις προσπάθειες του Jailbrack σε διαφορετικές γλώσσες και στυλ.
Κατά τη διάρκεια της αρχικής δοκιμής του 183, οι συναισθηματικοί άνθρωποι πέρασαν πάνω από 3.000 ώρες για δύο μήνες, προσπαθώντας να κάνουν ένα jailbreak claude 3,5 sonnet από ένα πρωτότυπο ενός συστήματος που εκπαιδεύτηκε να μην χρησιμοποιήσει καμία πληροφορία για «χημικά, βιολογικά, ακτινολογικά και πυρηνικά βλάβη. “Οι Jailbreakers έλαβαν 10 περιορισμένες αιτήσεις χρήσης στις προσπάθειές τους, οι παραβιάσεις θεωρήθηκαν μόνο επιτυχείς εάν έλαβαν λεπτομερώς ένα μοντέλο για να απαντήσουν λεπτομερώς.
Το σύστημα των συνταγματικών ταξινομητών ήταν αποτελεσματικό. “Κανένας από τους συμμετέχοντες δεν θα μπορούσε να αναγκάσει το μοντέλο να απαντήσει και τα 10 απαγορευμένα αιτήματα με ένα jailbreak – δηλαδή, δεν υπήρχε καθολική jailbreak”, εξήγησε ο ανθρωπός ότι κανείς δεν είχε κερδίσει την ανταμοιβή της εταιρείας ύψους $ 15.000.
Επίσης: Δοκίμασα την τοπική εφαρμογή AI Sanctum, και αυτό είναι ακριβώς αυτό που πρέπει να αποθηκεύσω τα δεδομένα μου στο ιδιωτικό
Το πρωτότυπο “αρνήθηκε πάρα πολλά αβλαβή αιτήματα” και ήταν επινοητική για εργασία, γεγονός που το καθιστά ασφαλές, αλλά ακατάλληλο. Μετά τη βελτίωσή του, ο Inpropic διεξήγαγε δοκιμασία 10.000 συνθετικών προσπαθειών από τον Jalebrack στην έκδοση του Οκτωβρίου του Sonnet Claude 3.5 με την προστασία του ταξινομητή και χωρίς να χρησιμοποιεί καλά γνωστές επιτυχημένες επιθέσεις. Μόνο ο Claude εμπόδισε μόνο το 14% των επιθέσεων, ενώ ο Claude με συνταγματικούς ταξινομητές εμπόδισε περισσότερο από το 95%.
“Οι συνταγματικοί ταξινομητές μπορεί να μην εμποδίσουν κάθε καθολικό jailbreak, αν και πιστεύουμε ότι ακόμη και ένα μικρό μερίδιο των Jailbreiks που διεξάγουν τους ταξινομητές μας απαιτούν πολύ μεγαλύτερη προσπάθεια για να ανιχνεύσουν πότε χρησιμοποιείται η εγγύηση”, συνέχισε ο ανθρωπός. “Είναι επίσης πιθανό ότι στις μελλοντικές νέες μεθόδους jailbreak μπορούν να αναπτυχθούν που θα είναι αποτελεσματικές έναντι του συστήματος. Ως εκ τούτου, συνιστούμε να χρησιμοποιήσετε πρόσθετη προστασία. Παρ ‘όλα αυτά, το Σύνταγμα χρησιμοποιείται για να διδάξει τους ταξινομητές. «
Επίσης: μια νέα απόφαση του γραφείου των ΗΠΑ για την τέχνη της τέχνης του AI – και μπορεί να αλλάξει τα πάντα
Η εταιρεία δήλωσε ότι εργάζεται επίσης για τη μείωση των υπολογισμών των συνταγματικών ταξινομητών, οι οποίοι, όπως σημειώνει, είναι σήμερα υψηλός.
Υπάρχει προκαταρκτική εμπειρία ενός κόκκινου κυβερνήτη; Μπορείτε να δοκιμάσετε την ευκαιρία σας για αμοιβή, δοκιμάζοντας τον εαυτό σας το σύστημα – μόνο οκτώ απαιτούμενες ερωτήσεις αντί για το αρχικό 10 – μέχρι τον Φεβρουάριο. 10