Νέο σύστημα ασφαλείας AI στο jailbreak ανθρωπικό για ανταμοιβή 15.000 $

GetTyimage-1210077086 — Εικόνες Miragec/Getty

Μπορείτε να κάνετε jailbreak του τελευταίου μέτρου ασφαλείας AI; Οι ερευνητές θέλουν να δοκιμάσετε – και να προσφέρετε έως και $ 15.000 αν πετύχετε.

Τη Δευτέρα, η εταιρεία δημοσίευσε ένα νέο άρθρο με την παρουσίαση του συστήματος ασφαλείας με βάση τα συνταγματικά ταξινομητές. Η διαδικασία βασίζεται στο συνταγματικό AI, ένα σύστημα που ο ανθρωπιστής χρησιμοποίησε για να κάνει τον Claude “αβλαβές”, στο οποίο ένα AI βοηθά στον έλεγχο και τη βελτίωση ενός άλλου. Κάθε μέθοδος καθοδηγείται από ένα σύνταγμα ή από έναν “κατάλογο αρχών”, τον οποίο το μοντέλο πρέπει να συμμορφώνεται με, ο ανθρωπός εξηγείται στο blog.

Επίσης: Το μοντέλο τεχνητής νοημοσύνης Deepseek είναι εύκολο στη Jailbreitsa – και χειρότερα

Εκπαιδεύτηκε από συνθετικά δεδομένα, αυτοί οι “ταξινομητές” ήταν σε θέση να φιλτράρουν τις προσπάθειες “συντριπτικής πλειοψηφίας” από το jailbreak χωρίς υπερβολικές επαναλήψεις (λανθασμένες σημαίες αβλαβής περιεχομένου ως επιβλαβείς), σύμφωνα με τον ανθρωπότη.

“Οι αρχές καθορίζουν τις κατηγορίες περιεχομένου που επιτρέπονται και απαγορεύονται (για παράδειγμα, επιτρέπονται συνταγές προσποίησης, αλλά οι συνταγές για το αέριο μουστάρδας δεν είναι)”, δήλωσε ο Anthropus. Οι ερευνητές παρείχαν συμβουλές λαμβάνοντας υπόψη τις προσπάθειες του Jailbrack σε διαφορετικές γλώσσες και στυλ.

2Ε997FCA176FD82966EEA5E9BF0008733337CFD1-1650X1077 — Οι συνταγματικοί ταξινομητές καθορίζουν αβλαβείς και επιβλαβείς κατηγορίες περιεχομένου, στις οποίες η ανθρωπότητα δημιούργησε ένα σύνολο συμβουλών και ολοκληρώσεων.

Άξονα

Κατά τη διάρκεια της αρχικής δοκιμής του 183, οι συναισθηματικοί άνθρωποι πέρασαν πάνω από 3.000 ώρες για δύο μήνες, προσπαθώντας να κάνουν ένα jailbreak claude 3,5 sonnet από ένα πρωτότυπο ενός συστήματος που εκπαιδεύτηκε να μην χρησιμοποιήσει καμία πληροφορία για «χημικά, βιολογικά, ακτινολογικά και πυρηνικά βλάβη. “Οι Jailbreakers έλαβαν 10 περιορισμένες αιτήσεις χρήσης στις προσπάθειές τους, οι παραβιάσεις θεωρήθηκαν μόνο επιτυχείς εάν έλαβαν λεπτομερώς ένα μοντέλο για να απαντήσουν λεπτομερώς.

Samsung Galaxy S25 Ultra έναντι OnePlus 13: Συγκρίνω τα καλύτερα τηλέφωνα Android και ήταν πολύ κοντά

March 9, 2025

Αντικατέστησα τη φωτογραφική μηχανή Sony με 3.500 $ με Android 200MP – και με κατέστρεψε πάρα πολύ

March 9, 2025

Το σύστημα των συνταγματικών ταξινομητών ήταν αποτελεσματικό. “Κανένας από τους συμμετέχοντες δεν θα μπορούσε να αναγκάσει το μοντέλο να απαντήσει και τα 10 απαγορευμένα αιτήματα με ένα jailbreak – δηλαδή, δεν υπήρχε καθολική jailbreak”, εξήγησε ο ανθρωπός ότι κανείς δεν είχε κερδίσει την ανταμοιβή της εταιρείας ύψους $ 15.000.

Επίσης: Δοκίμασα την τοπική εφαρμογή AI Sanctum, και αυτό είναι ακριβώς αυτό που πρέπει να αποθηκεύσω τα δεδομένα μου στο ιδιωτικό

Το πρωτότυπο “αρνήθηκε πάρα πολλά αβλαβή αιτήματα” και ήταν επινοητική για εργασία, γεγονός που το καθιστά ασφαλές, αλλά ακατάλληλο. Μετά τη βελτίωσή του, ο Inpropic διεξήγαγε δοκιμασία 10.000 συνθετικών προσπαθειών από τον Jalebrack στην έκδοση του Οκτωβρίου του Sonnet Claude 3.5 με την προστασία του ταξινομητή και χωρίς να χρησιμοποιεί καλά γνωστές επιτυχημένες επιθέσεις. Μόνο ο Claude εμπόδισε μόνο το 14% των επιθέσεων, ενώ ο Claude με συνταγματικούς ταξινομητές εμπόδισε περισσότερο από το 95%.

CD6520D6455ADE7F12AB336CD02EF5954211DFA8-1650X1077 — Άξονα

“Οι συνταγματικοί ταξινομητές μπορεί να μην εμποδίσουν κάθε καθολικό jailbreak, αν και πιστεύουμε ότι ακόμη και ένα μικρό μερίδιο των Jailbreiks που διεξάγουν τους ταξινομητές μας απαιτούν πολύ μεγαλύτερη προσπάθεια για να ανιχνεύσουν πότε χρησιμοποιείται η εγγύηση”, συνέχισε ο ανθρωπός. “Είναι επίσης πιθανό ότι στις μελλοντικές νέες μεθόδους jailbreak μπορούν να αναπτυχθούν που θα είναι αποτελεσματικές έναντι του συστήματος. Ως εκ τούτου, συνιστούμε να χρησιμοποιήσετε πρόσθετη προστασία. Παρ ‘όλα αυτά, το Σύνταγμα χρησιμοποιείται για να διδάξει τους ταξινομητές. «

Επίσης: μια νέα απόφαση του γραφείου των ΗΠΑ για την τέχνη της τέχνης του AI – και μπορεί να αλλάξει τα πάντα

Η εταιρεία δήλωσε ότι εργάζεται επίσης για τη μείωση των υπολογισμών των συνταγματικών ταξινομητών, οι οποίοι, όπως σημειώνει, είναι σήμερα υψηλός.

Υπάρχει προκαταρκτική εμπειρία ενός κόκκινου κυβερνήτη; Μπορείτε να δοκιμάσετε την ευκαιρία σας για αμοιβή, δοκιμάζοντας τον εαυτό σας το σύστημα – μόνο οκτώ απαιτούμενες ερωτήσεις αντί για το αρχικό 10 – μέχρι τον Φεβρουάριο. 10

Νέο σύστημα ασφαλείας AI στο jailbreak ανθρωπικό για ανταμοιβή 15.000 $

Related posts

Samsung Galaxy S25 Ultra έναντι OnePlus 13: Συγκρίνω τα καλύτερα τηλέφωνα Android και ήταν πολύ κοντά

Αντικατέστησα τη φωτογραφική μηχανή Sony με 3.500 $ με Android 200MP – και με κατέστρεψε πάρα πολύ

Indiana Jones: Οδηγός Οδηγός Pearl Pearl

Η Fed μπορεί να είναι σε ένα πολιτικό τέχνασμα 22 εάν τα τιμολόγια αναστρέψουν τον πληθωρισμό

Η Fed μπορεί να είναι σε ένα πολιτικό τέχνασμα 22 εάν τα τιμολόγια αναστρέψουν τον πληθωρισμό

Leave a Reply Cancel reply

RECOMMENDED NEWS

Ενημέρωση Pokémon TCG Pocket που αλλάζει το παιχνίδι και άλλα σημαντικά νέα για τα παιχνίδια

Η επαναφορά του Τραμπ επέστρεψε – και οι μετοχές που στόχευε καταρρέουν.

Οι διασημότητες πωλούν κάθε Super Cup, το οποίο ήταν κακό

Η απόδοση του 10ετούς ομολόγου αναρριχήθηκε πάνω από το 4,6% μετά από μικτά στοιχεία για τις αιτήσεις ανεργίας.

BROWSE BY CATEGORIES

POPULAR NEWS

Το 40% των παγκόσμιων αναγκών σε νερό θα παραμείνει ανεκπλήρωτο μέχρι το 2030 λόγω της παύσης της ανάπτυξης της τεχνολογίας αφαλάτωσης

Το Astro Bot έχει ένα εκπληκτικό ανεξερεύνητο επίπεδο με τόνους μυστικών αυγών

Μόλις γελοιοποιήθηκε για το ύψος του, ο «ζεστός» παρααθλητής αναγκάζει άλλους να κάθονται στις μύτες των ποδιών τους

Μια προσέγγιση με γνώμονα τα δεδομένα για την εταιρική διακυβέρνηση

Το Grand Theft Auto 6 δεν θα επηρεαστεί από την απεργία των ηθοποιών

Recent News

Category

World News

Ινδικό ΑΕΠ, απόφαση BOK, ΔΤΚ Σιγκαπούρης

Εθνικό στάδιο, καιρός του Καράτσι πριν από τη Νότια Αφρική κατά της σύγκρουσης της Αγγλίας