Οι συνομιλίες με τον υπολογιστή σας μπορεί να γίνουν πιο ρεαλιστικές

Πίνακας περιεχομένων:

Οι συνομιλίες με τον υπολογιστή σας μπορεί να γίνουν πιο ρεαλιστικές
Οι συνομιλίες με τον υπολογιστή σας μπορεί να γίνουν πιο ρεαλιστικές
Anonim

Βασικά Takeaways

  • Η Meta χρησιμοποιεί τεχνητή νοημοσύνη για τη δημιουργία προγραμμάτων που μπορούν να εκφράσουν συναισθήματα στην ομιλία.
  • Η ομάδα τεχνητής νοημοσύνης της εταιρείας είπε ότι έχει σημειώσει πρόοδο στη μοντελοποίηση εκφραστικών φωνητικών, όπως γέλιο, χασμουρητό, κλάματα και "αυθόρμητη συνομιλία" σε πραγματικό χρόνο.
  • Το Το AI χρησιμοποιείται επίσης για βελτιώσεις στην αναγνώριση ομιλίας.
Image
Image

Μπορεί σύντομα να έχετε μια πιο φυσική συνομιλία με τον υπολογιστή σας, χάρη στη δύναμη της τεχνητής νοημοσύνης (AI).

Η Η Meta είπε ότι έχει σημειώσει σημαντική πρόοδο στην προσπάθειά της να δημιουργήσει πιο ρεαλιστικά συστήματα ομιλίας που δημιουργούνται από AI. Η ομάδα τεχνητής νοημοσύνης της εταιρείας είπε ότι έχει κάνει προόδους στην ικανότητα να μοντελοποιεί εκφραστικές φωνές, όπως γέλιο, χασμουρητό και κλάματα, εκτός από την "αυθόρμητη συνομιλία" σε πραγματικό χρόνο.

"Σε κάθε δεδομένη συνομιλία, οι άνθρωποι ανταλλάσσουν γεμάτα μη λεκτικά σήματα, όπως τονισμούς, συναισθηματική έκφραση, παύσεις, τόνους, ρυθμούς - όλα αυτά είναι σημαντικά για τις ανθρώπινες αλληλεπιδράσεις", έγραψε η ομάδα στην πρόσφατη ανάρτηση ιστολογίου. "Αλλά τα σημερινά συστήματα τεχνητής νοημοσύνης αποτυγχάνουν να συλλάβουν αυτά τα πλούσια, εκφραστικά σήματα επειδή μαθαίνουν μόνο από γραπτό κείμενο, το οποίο καταγράφει αυτό που λέμε αλλά όχι πώς το λέμε."

Εξυπνότερος λόγος

Στην ανάρτηση ιστολογίου, η ομάδα του Meta AI είπε ότι εργάζεται για να ξεπεράσει τους περιορισμούς των παραδοσιακών συστημάτων τεχνητής νοημοσύνης που δεν μπορούν να κατανοήσουν μη λεκτικά σήματα στην ομιλία, όπως τονισμούς, συναισθηματικές εκφράσεις, παύσεις, τόνους και ρυθμούς. Τα συστήματα συγκρατούνται επειδή μπορούν να μάθουν μόνο από γραπτό κείμενο.

Αλλά η δουλειά της Meta διαφέρει από τις προηγούμενες προσπάθειες, επειδή τα μοντέλα τεχνητής νοημοσύνης της μπορούν να χρησιμοποιήσουν μοντέλα επεξεργασίας φυσικής γλώσσας για να αποτυπώσουν την πλήρη φύση της προφορικής γλώσσας. Οι ερευνητές της Meta λένε ότι τα νέα μοντέλα μπορούν να επιτρέψουν στα συστήματα τεχνητής νοημοσύνης να μεταδώσουν το συναίσθημα που θέλουν να μεταφέρουν - όπως πλήξη ή ειρωνεία.

"Στο εγγύς μέλλον, θα επικεντρωθούμε στην εφαρμογή τεχνικών χωρίς κείμενο για τη δημιουργία χρήσιμων μεταγενέστερων εφαρμογών χωρίς να απαιτούνται ούτε ετικέτες κειμένου με ένταση πόρων ούτε συστήματα αυτόματης αναγνώρισης ομιλίας (ASR), όπως η απάντηση ερωτήσεων (π.χ. "Πώς είναι το καιρός;", έγραψε η ομάδα στην ανάρτηση στο blog. "Πιστεύουμε ότι η προσωδία στην ομιλία μπορεί να βοηθήσει στην καλύτερη ανάλυση μιας πρότασης, η οποία με τη σειρά της διευκολύνει την κατανόηση της πρόθεσης και βελτιώνει την απόδοση της απάντησης σε ερωτήσεις."

Κατανόηση δυνατοτήτων AI

Οχι μόνο οι υπολογιστές βελτιώνονται στην επικοινωνία του νοήματος, αλλά η τεχνητή νοημοσύνη χρησιμοποιείται επίσης για βελτιώσεις στην αναγνώριση ομιλίας.

Οι επιστήμονες υπολογιστών εργάζονται για την αναγνώριση ομιλίας στον υπολογιστή τουλάχιστον από το 1952, όταν τρεις ερευνητές της Bell Labs δημιούργησαν ένα σύστημα που μπορούσε να αναγνωρίσει μεμονωμένα ψηφία, είπε ο επικεφαλής τεχνολογίας της AI Dynamics, Ryan Monsurate, σε ένα email στο Lifewire. Μέχρι τη δεκαετία του 1990, τα συστήματα αναγνώρισης ομιλίας ήταν εμπορικά διαθέσιμα, αλλά είχαν ακόμη ένα ποσοστό σφάλματος που ήταν αρκετά υψηλό ώστε να αποθαρρύνει τη χρήση εκτός πολύ συγκεκριμένων τομέων εφαρμογών, όπως η υγειονομική περίθαλψη.

"Τώρα που τα μοντέλα βαθιάς μάθησης επέτρεψαν σε μοντέλα συνόλου (όπως αυτά της Microsoft) να επιτύχουν υπεράνθρωπη απόδοση στην αναγνώριση ομιλίας, έχουμε την τεχνολογία για να επιτρέψουμε τη λεκτική επικοινωνία ανεξάρτητη από ομιλητές με υπολογιστές σε κλίμακα", είπε ο Monsurate. "Το επόμενο στάδιο θα περιλαμβάνει μείωση του κόστους, έτσι ώστε όλοι όσοι χρησιμοποιούν το Siri ή τους βοηθούς τεχνητής νοημοσύνης της Google να έχουν πρόσβαση σε αυτό το επίπεδο αναγνώρισης ομιλίας."

Image
Image

Το Το AI είναι χρήσιμο για την αναγνώριση ομιλίας επειδή μπορεί να βελτιωθεί με την πάροδο του χρόνου μέσω της μάθησης, είπε ο Ariel Utnik, επικεφαλής εσόδων και γενικός διευθυντής της εταιρείας φωνής AI Verbit.ai, σε μια συνέντευξη στο Lifewire. Για παράδειγμα, η Verbit ισχυρίζεται ότι η εσωτερική της τεχνολογία AI ανιχνεύει και φιλτράρει το θόρυβο του περιβάλλοντος και τις ηχώ και μεταγράφει τα ηχεία ανεξάρτητα από την προφορά για να δημιουργήσει λεπτομερείς, επαγγελματικές μεταγραφές και λεζάντες από ζωντανά και εγγεγραμμένα βίντεο και ήχο.

Αλλά η Utnik είπε ότι οι περισσότερες τρέχουσες πλατφόρμες αναγνώρισης ομιλίας είναι μόνο 75-80% ακριβείς.

"Το AI δεν θα αντικαταστήσει ποτέ πλήρως τους ανθρώπους, καθώς η προσωπική αναθεώρηση από μεταγραφείς, διορθωτές και συντάκτες είναι απαραίτητη για να διασφαλιστεί μια τελική μεταγραφή υψηλής ποιότητας και κορυφαίας ακρίβειας", πρόσθεσε.

Η καλύτερη αναγνώριση φωνής θα μπορούσε επίσης να χρησιμοποιηθεί για την αποτροπή των χάκερ, δήλωσε σε ένα email ο Sanjay Gupta, ο αντιπρόεδρος παγκόσμιος επικεφαλής προϊόντων και εταιρικής ανάπτυξης στην εταιρεία αναγνώρισης φωνής Mitek Systems. Η έρευνα δείχνει ότι εντός δύο ετών, το 20 τοις εκατό όλων των επιτυχημένων επιθέσεων κατάληψης λογαριασμού θα χρησιμοποιούν συνθετική αύξηση φωνής, πρόσθεσε.

"Αυτό σημαίνει ότι καθώς η τεχνολογία deep fake γίνεται πιο εξελιγμένη, πρέπει να δημιουργήσουμε ταυτόχρονα προηγμένη ασφάλεια που θα μπορεί να καταπολεμήσει αυτές τις τακτικές παράλληλα με τις απομιμήσεις εικόνων και βίντεο", είπε ο Gupta. "Η καταπολέμηση της πλαστογράφησης φωνής απαιτεί τεχνολογία ανίχνευσης ζωντάνιας, ικανή να διακρίνει μεταξύ μιας ζωντανής φωνής και μιας ηχογραφημένης, συνθετικής ή δημιουργημένης από υπολογιστή έκδοση φωνής."

Διόρθωση 2022-05-04: Διορθώθηκε η ορθογραφία του ονόματος του Ryan Monsurate στην παράγραφο 9.

Συνιστάται: