
Τα μοντέλα τεχνητής νοημοσύνης από το κείμενο στην ομιλία είναι ένα εξαιρετικό εργαλείο για περιπτώσεις όπου χρησιμοποιούνται συνήθως οι ανθρώπινοι ηθοποιοί, όπως ακουστικά, επανάληψη, διαφημίσεις και πολλά άλλα. Ωστόσο, δεδομένου ότι αυτά τα μοντέλα δεν είναι άνθρωποι και δεν γνωρίζουν τι λένε, μερικές φορές μπορούν να ακούγονται αισθητά ρομποτικά. Το νέο μοντέλο του AI HOMA επιδιώκει να λύσει αυτό το πρόβλημα.
Επίσης: 10 βασικοί λόγοι για τους οποίους το II έγινε το mainstream όλη τη νύχτα – και τι θα συμβεί στη συνέχεια
Οκτάβα
Την Τετάρτη, ο Hum ξεκίνησε την Octave, ένα μεγάλο γλωσσικό μοντέλο κειμένου στο Speech (LLM) με συνειδητοποίηση συμφραζομένων. Η LLM μπορεί να χρησιμοποιήσει αυτήν την ευαισθητοποίηση για να διαμορφώσει τη μελωδία, το ρυθμό και το στύλο του λόγου με τις λέξεις που διαβάζει, με βάση το νόημά τους, σύμφωνα με την εταιρεία. Για παράδειγμα, μια φωνή με υποστήριξη AI μπορεί να μεταφέρει μια αίσθηση αηδία κατά την ανάγνωση μιας πρότασης.
Εκτός από την κατανόηση του πλαισίου του κειμένου, το μοντέλο μπορεί επίσης να δεχτεί οδηγίες. Οι χρήστες μπορούν να τον διδάξουν “ήρεμα”, “ψιθυρίζοντας”, “αηδιαστικό”, “θυμωμένος” και πολλούς άλλους. Ο Hum λέει ότι το πλεονέκτημα της Octave έχει έναν φωνητικό ηθοποιό, είναι ότι μπορεί να δεχτεί οποιαδήποτε φωνή ή ακόμα και να επινοήσει ένα νέο, με βάση την περιγραφή του χρήστη.
Επίσης: Γιατί το τελευταίο μοντέλο Claude CLAUDE μπορεί να είναι νέα τεχνητή νοημοσύνη και πώς να δοκιμάσετε
Για παράδειγμα, ο Hum λέει ότι ο χρήστης μπορεί να προσφέρει μια τέτοια απλή υπόδειξη ως “σοφός οδηγός” ή τόσο περίπλοκο όσο ένας συνδυασμός διαφόρων τόνων, δημογραφικών ομάδων, επαγγελματικών ρόλων και πολλά άλλα. Στην πραγματικότητα, το μοντέλο θα εφεύρει τη φωνή μόνο σε σενάρια, αλλά όταν το ζητηθεί, θα μπορούσε να ελεγχθεί από το σενάριο και την περιγραφή.
Μοντέλο δοκιμής
Η διεπαφή χρήστη είναι εύκολο να πλοηγηθεί, με ένα φύλλο κειμένου στο οποίο μπορείτε να περιγράψετε ακριβώς πώς θέλετε η φωνή σας να ακούγεται και η άλλη για το σενάριο που εισάγετε αυτό που θέλετε να πείτε το μοντέλο. Για την πρώτη μου δοκιμή, χρησιμοποίησα λεπτομερείς τελικές συμβουλές για να δω πώς ακουγόταν.
Μετά την πίεση του “Generate”, η οκτάβα δημιούργησε τρία αποτελέσματα της ψηφοφορίας και μετά την πρώτη ακρόαση εντυπωσιάστηκα. Παρόλο που δεν ήμουν πεπεισμένος ότι οι γενιές κατέλαβαν τον ήχο της “κοιλάδας”, ήμουν πολύ εντυπωσιασμένος με εντάσεις και υπερβολές.
Για τον υπαινιγμό μου, δημιούργησα ένα σενάριο στο οποίο ο κύριος ομιλητής ασφυκτιώνεται από το τρέξιμο και το βιαστικό. Το σενάριο διαβάζει: “Ναι, είμαι σχεδόν στη γραμμή τερματισμού. Είμαι τόσο κουρασμένος, αλλά θα συνεχίσω να επιμένω γιατί είμαι σχεδόν εκεί. Τα λέμε αργότερα! Byee “.
Επίσης: 3 Απλό
Ήμουν εξίσου ευχαριστημένος με αυτά τα αποτελέσματα. Η οκτάβα ουσιαστικά μεταβίβασε αυτό που ήθελα τοποθετώντας το σωστό ποσό ενθουσιασμού και μια παύση, όπου θα γίνουν αναπνοές εάν εξαντληθείτε από το τρέξιμο. Ωστόσο, όπως και στο προηγούμενο παράδειγμα, η φωνή δεν ήταν ακριβώς αυτό που περιέγραψα. Σε αυτή την περίπτωση, ο ομιλητής δεν έλεγε super-outlet.
Σε γενικές γραμμές, φαίνεται ότι η δύναμη του μοντέλου κάνει τις αποχρώσεις της ανθρώπινης ομιλίας στο αποτέλεσμα του. Το γεγονός ότι το AI συχνά ψηφίζει είναι η μονοτονία τους, γεγονός που κάνει την έξοδο να ακούγεται μάλλον βαρετή για ακρόαση. Με την Octave θα μπορούσατε να ακούσετε τα συναισθήματα του αναγνώστη, είτε πρόκειται για απογοήτευση, ήττα ή κόπωση. Λέξεις όπως το “ugh” έχουν το ακριβές μήκος και την αναπνοή που χρησιμοποιεί ένα άτομο, δημιουργώντας ελκυστική εμπειρία.
Πώς να έχετε πρόσβαση
Υπάρχουν διαφορετικά επίπεδα για πρόσβαση στο μοντέλο, συμπεριλαμβανομένου του δωρεάν με όριο 10.000 χαρακτήρων (περίπου 10 λεπτά) και απεριόριστες φωνές του χαρακτήρα, αν θέλετε να το δοκιμάσετε. Εκτός από το ελεύθερο επίπεδο, υπάρχουν έξι επιπλέον επίπεδα, από 3 έως 900 δολάρια το μήνα, ανάλογα με τις ανάγκες πρόσβασης.
Επίσης: Ο Anpropic προσφέρει 20.000 $, ο οποίος μπορεί να jailbreak του νέου συστήματος ασφαλείας του AI
Για παράδειγμα, το επίπεδο εκκίνησης είναι 3 δολάρια το μήνα και περιλαμβάνει 30.000 χαρακτήρες (περίπου 30 λεπτά), ενώ η επιχείρηση είναι 900 δολάρια το μήνα για 10.000.000 χαρακτήρες (περίπου 10.000 λεπτά). Υπάρχει επίσης μια επιχείρηση που μπορεί να ρυθμιστεί για τις ανάγκες σας. Μπορείτε να δείτε όλες τις προσφορές και να αρχίσετε να εργάζεστε στον ιστότοπο Hume.