Πώς η τεχνητή νοημοσύνη θα μπορούσε να κάνει την ομιλία στον υπολογιστή πιο φυσική

Πίνακας περιεχομένων:

Πώς η τεχνητή νοημοσύνη θα μπορούσε να κάνει την ομιλία στον υπολογιστή πιο φυσική
Πώς η τεχνητή νοημοσύνη θα μπορούσε να κάνει την ομιλία στον υπολογιστή πιο φυσική
Anonim

Βασικά Takeaways

  • Οι εταιρείες αγωνίζονται για να βρουν τρόπους να κάνουν την ομιλία που δημιουργείται από υπολογιστή να ακούγεται πιο ρεαλιστικό.
  • Η Η NVIDIA αποκάλυψε πρόσφατα εργαλεία που μπορούν να αποτυπώσουν τον ήχο της φυσικής ομιλίας, επιτρέποντάς σας να εκπαιδεύσετε μια τεχνητή νοημοσύνη με τη δική σας φωνή.
  • Ο επιτονισμός, το συναίσθημα και η μουσικότητα είναι τα χαρακτηριστικά που εξακολουθούν να λείπουν οι φωνές των υπολογιστών, λέει ένας ειδικός.
Image
Image

Η ομιλία που δημιουργείται από υπολογιστή μπορεί σύντομα να ακούγεται πολύ πιο ανθρώπινη.

Η εταιρεία κατασκευής ανταλλακτικών υπολογιστών NVIDIA αποκάλυψε πρόσφατα εργαλεία που μπορούν να αποτυπώσουν τον ήχο της φυσικής ομιλίας, επιτρέποντάς σας να εκπαιδεύσετε μια τεχνητή νοημοσύνη με τη φωνή σας. Το λογισμικό μπορεί επίσης να μεταφέρει τις λέξεις ενός ομιλητή χρησιμοποιώντας τη φωνή ενός άλλου ατόμου. Αποτελεί μέρος μιας αυξανόμενης ώθησης για να γίνει πιο ρεαλιστική η ομιλία στον υπολογιστή.

"Η προηγμένη τεχνολογία φωνητικής τεχνητής νοημοσύνης επιτρέπει στους χρήστες να μιλούν φυσικά, συνδυάζοντας πολλές ερωτήσεις σε μία μόνο πρόταση και εξαλείφοντας την ανάγκη να επαναλαμβάνονται συνεχώς λεπτομέρειες από το αρχικό ερώτημα ", Michael Zagorsek, ο διευθύνων σύμβουλος της εταιρείας αναγνώρισης ομιλίας SoundHound, είπε στο Lifewire σε μια συνέντευξη μέσω email.

"Η προσθήκη πολλών γλωσσών, τώρα διαθέσιμη στις περισσότερες πλατφόρμες φωνητικής τεχνητής νοημοσύνης, καθιστά τους ψηφιακούς βοηθούς φωνής προσβάσιμους σε περισσότερες γεωγραφικές περιοχές και για περισσότερους πληθυσμούς", πρόσθεσε.

Robospeech Rising

Το Alexa της Amazon και το Siri της Apple ακούγονται πολύ καλύτερα από την ομιλία στον υπολογιστή πριν από μια δεκαετία, αλλά δεν θα εκληφθούν για αυθεντικές ανθρώπινες φωνές σύντομα.

Για να ακούγεται πιο φυσικός ο τεχνητός λόγος, η ερευνητική ομάδα μετατροπής κειμένου σε ομιλία της NVIDIA ανέπτυξε ένα μοντέλο RAD-TTS. Το σύστημα επιτρέπει στα άτομα να διδάξουν ένα μοντέλο μετατροπής κειμένου σε ομιλία (TTS) με τη φωνή τους, συμπεριλαμβανομένου του ρυθμού, της τονικότητας, της χροιάς και άλλων παραγόντων.

Η εταιρεία χρησιμοποίησε το νέο της μοντέλο για να δημιουργήσει φωνητική αφήγηση με περισσότερη συνομιλία για τη σειρά βίντεο I Am AI.

Με αυτήν τη διεπαφή, ο παραγωγός βίντεο θα μπορούσε να ηχογραφήσει τον εαυτό του διαβάζοντας το σενάριο του βίντεο και στη συνέχεια να χρησιμοποιήσει το μοντέλο AI για να μετατρέψει την ομιλία του στη φωνή της γυναίκας αφηγήτριας. Χρησιμοποιώντας αυτήν τη βασική αφήγηση, ο παραγωγός θα μπορούσε στη συνέχεια να κατευθύνει το AI σαν φωνή ηθοποιός-προσαρμόζει τη συνθετική ομιλία για να δώσει έμφαση σε συγκεκριμένες λέξεις και τροποποιώντας τον ρυθμό της αφήγησης για να εκφράσει καλύτερα τον τόνο του βίντεο», έγραψε η NVIDIA στον ιστότοπό της.

Πιο δύσκολο από όσο ακούγεται

Το να κάνετε την ομιλία που δημιουργείται από υπολογιστή να ακούγεται φυσικό είναι ένα δύσκολο πρόβλημα, λένε οι ειδικοί.

"Χρειάζεται να ηχογραφήσετε εκατοντάδες ώρες φωνής κάποιου για να δημιουργήσετε μια εκδοχή της στον υπολογιστή", είπε ο Nazim Ragimov, Διευθύνων Σύμβουλος της εταιρείας λογισμικού κειμένου σε ομιλία Kukarella, στο Lifewire σε μια συνέντευξη μέσω email. «Και η ηχογράφηση πρέπει να είναι υψηλής ποιότητας, ηχογραφημένη σε επαγγελματικό στούντιο. Όσο περισσότερες ώρες ποιοτικής ομιλίας φορτώνονται και υποβάλλονται σε επεξεργασία, τόσο καλύτερο είναι το αποτέλεσμα."

Η μετατροπή κειμένου σε ομιλία μπορεί να χρησιμοποιηθεί στα παιχνίδια, για να βοηθήσει άτομα με φωνητικές αναπηρίες ή για να βοηθήσει τους χρήστες να μεταφράζουν μεταξύ τους με τη φωνή τους.

Ο επιτονισμός, το συναίσθημα και η μουσικότητα είναι τα χαρακτηριστικά που εξακολουθούν να λείπουν οι φωνές των υπολογιστών, είπε ο Ragimov.

Εάν η τεχνητή νοημοσύνη μπορεί να προσθέσει αυτούς τους συνδέσμους που λείπουν, η ομιλία που δημιουργείται από υπολογιστή θα «δεν θα διακρίνεται από τις φωνές των πραγματικών ηθοποιών», πρόσθεσε. "Αυτό είναι ένα έργο σε εξέλιξη. Άλλες φωνές θα μπορούν να ανταγωνιστούν τους παρουσιαστές του ραδιοφώνου. Σύντομα θα δείτε φωνές που θα μπορούν να τραγουδούν και να διαβάζουν ηχητικά βιβλία."

Η τεχνολογία ομιλίας γίνεται πιο δημοφιλής σε ένα ευρύ φάσμα επιχειρήσεων.

"Η αυτοκινητοβιομηχανία υιοθέτησε πρόσφατα τη φωνητική τεχνητή νοημοσύνη ως τρόπο δημιουργίας ασφαλέστερων και πιο συνδεδεμένων οδηγικών εμπειριών", είπε ο Zagorsek.

"Από τότε, οι βοηθοί φωνής γίνονται όλο και πιο πανταχού παρόντες καθώς οι επωνυμίες αναζητούν τρόπους για να βελτιώσουν τις εμπειρίες των πελατών και να ανταποκριθούν στη ζήτηση για ευκολότερες, ασφαλέστερες, πιο βολικές, αποτελεσματικές και υγιεινές μεθόδους αλληλεπίδρασης με τα προϊόντα και τις υπηρεσίες τους."

Συνήθως, η φωνητική τεχνητή νοημοσύνη μετατρέπει ερωτήματα σε απαντήσεις σε μια διαδικασία δύο βημάτων που ξεκινά με τη μεταγραφή της ομιλίας σε κείμενο χρησιμοποιώντας την αυτόματη αναγνώριση ομιλίας (ASR) και στη συνέχεια τροφοδοτώντας αυτό το κείμενο σε ένα μοντέλο κατανόησης φυσικής γλώσσας (NLU).

Image
Image

Η προσέγγιση SoundHound συνδυάζει αυτά τα δύο βήματα σε μία διαδικασία για την παρακολούθηση της ομιλίας σε πραγματικό χρόνο. Η εταιρεία ισχυρίζεται ότι αυτή η τεχνική επιτρέπει στους φωνητικούς βοηθούς να κατανοούν το νόημα των ερωτημάτων των χρηστών, ακόμη και πριν το άτομο τελειώσει την ομιλία του.

Οι μελλοντικές εξελίξεις στην ομιλία υπολογιστή, συμπεριλαμβανομένης της διαθεσιμότητας μιας ποικιλίας επιλογών συνδεσιμότητας από ενσωματωμένη μόνο (δεν απαιτείται σύνδεση στο cloud) έως υβριδική (ενσωματωμένη συν cloud) και μόνο σε cloud "θα δώσουν περισσότερες επιλογές σε εταιρείες σε όλους τους κλάδους όσον αφορά το κόστος, το απόρρητο και τη διαθεσιμότητα της επεξεργαστικής ισχύος", είπε ο Zagoresk.

NVIDIA είπε ότι τα νέα της μοντέλα τεχνητής νοημοσύνης ξεπερνούν την εργασία της φωνής.

"Η μετατροπή κειμένου σε ομιλία μπορεί να χρησιμοποιηθεί στα παιχνίδια, για να βοηθήσει άτομα με φωνητικές αναπηρίες ή για να βοηθήσει τους χρήστες να μεταφράζουν μεταξύ τους τις γλώσσες με τη φωνή τους", έγραψε η εταιρεία. "Μπορεί ακόμη και να αναδημιουργήσει τις ερμηνείες εμβληματικών τραγουδιστών, ταιριάζοντας όχι μόνο με τη μελωδία ενός τραγουδιού αλλά και με τη συναισθηματική έκφραση πίσω από τα φωνητικά."

Συνιστάται: