Βασικά Takeaways
- Η μέρα πλησιάζει γρήγορα που δεν θα μπορείτε να ξεχωρίσετε την ομιλία που δημιουργείται από υπολογιστή από την πραγματική.
- Η Google αποκάλυψε πρόσφατα το LaMDA, ένα μοντέλο που θα μπορούσε να επιτρέψει πιο φυσικές συνομιλίες.
- Η παραγωγή ομιλίας που μοιάζει με άνθρωπο απαιτεί επίσης τεράστια επεξεργαστική ισχύ.
Αυτή τη στιγμή, είναι εύκολο να καταλάβετε πότε μιλάτε σε υπολογιστή, αλλά αυτό μπορεί να αλλάξει σύντομα χάρη στις πρόσφατες εξελίξεις στην τεχνητή νοημοσύνη.
Η Google αποκάλυψε πρόσφατα το LaMDA, ένα πειραματικό μοντέλο που η εταιρεία ισχυρίζεται ότι θα μπορούσε να ενισχύσει την ικανότητα των βοηθών τεχνητής νοημοσύνης συνομιλίας και να επιτρέψει πιο φυσικές συνομιλίες. Το LaMDA στοχεύει τελικά να συνομιλεί κανονικά για σχεδόν οτιδήποτε χωρίς προηγούμενη εκπαίδευση.
Είναι ένα από έναν αυξανόμενο αριθμό έργων τεχνητής νοημοσύνης που θα μπορούσε να σας αφήσει να αναρωτιέστε αν μιλάτε με έναν άνθρωπο.
"Η εκτίμησή μου είναι ότι μέσα στους επόμενους 12 μήνες, οι χρήστες θα αρχίσουν να εκτίθενται και να συνηθίζουν σε αυτές τις νέες, πιο συναισθηματικές φωνές," James Kaplan, ο Διευθύνων Σύμβουλος του MeetKai, ενός εικονικού βοηθού φωνής και αναζήτησης με τεχνητή νοημοσύνη συνομιλίας κινητήρα, είπε σε μια συνέντευξη μέσω email.
"Μόλις συμβεί αυτό, η συνθετική ομιλία του σήμερα θα ακούγεται στους χρήστες όπως η ομιλία των αρχών της δεκαετίας του 2000 ακούγεται σε εμάς σήμερα."
Βοηθοί φωνής με χαρακτήρα
Το LaMDA της Google είναι χτισμένο στο Transformer, μια αρχιτεκτονική νευρωνικών δικτύων που εφευρέθηκε από την Google Research. Σε αντίθεση με άλλα μοντέλα γλώσσας, το LaMDA της Google εκπαιδεύτηκε στον πραγματικό διάλογο.
Μέρος της πρόκλησης για τη δημιουργία ομιλίας τεχνητής νοημοσύνης με φυσικό ήχο είναι η ανοιχτή φύση των συνομιλιών, έγραψε ο Eli Collins της Google σε μια ανάρτηση ιστολογίου.
"Μια συνομιλία με έναν φίλο για μια τηλεοπτική εκπομπή θα μπορούσε να εξελιχθεί σε μια συζήτηση για τη χώρα όπου γυρίστηκε η εκπομπή πριν καταλήξουμε σε μια συζήτηση για την καλύτερη τοπική κουζίνα αυτής της χώρας", πρόσθεσε.
Τα πράγματα προχωρούν γρήγορα με την ομιλία ρομπότ. Ο Έρικ Ρόζενμπλουμ, διευθύνων σύμβουλος στην Tsingyuan Ventures, η οποία επενδύει στην τεχνητή νοημοσύνη συνομιλίας, είπε ότι μερικά από τα πιο θεμελιώδη προβλήματα στην ομιλία με τη βοήθεια υπολογιστή έχουν ουσιαστικά λυθεί.
Για παράδειγμα, το ποσοστό ακρίβειας στην κατανόηση της ομιλίας είναι ήδη εξαιρετικά υψηλό σε υπηρεσίες όπως μεταγραφές που γίνονται από το λογισμικό Otter.ai ή ιατρικές σημειώσεις που λαμβάνονται από το DeepScribe.
"Το επόμενο σύνορο, ωστόσο, είναι πολύ πιο δύσκολο", πρόσθεσε.
"Η διατήρηση της κατανόησης του πλαισίου, το οποίο είναι ένα πρόβλημα που υπερβαίνει την επεξεργασία της φυσικής γλώσσας, και η ενσυναίσθηση, όπως οι υπολογιστές που αλληλεπιδρούν με τους ανθρώπους πρέπει να κατανοήσουν την απογοήτευση, τον θυμό, την ανυπομονησία κ.λπ. Και τα δύο αυτά ζητήματα εξετάζονται, αλλά και τα δύο απέχουν πολύ από το να είναι ικανοποιητικά."
Τα νευρωνικά δίκτυα είναι το κλειδί
Για να δημιουργήσουν ζωντανές φωνές, οι εταιρείες χρησιμοποιούν τεχνολογία όπως βαθιά νευρωνικά δίκτυα, μια μορφή μηχανικής μάθησης που ταξινομεί δεδομένα μέσω επιπέδων, ο Matt Muldoon, πρόεδρος της Βόρειας Αμερικής στο ReadSpeaker, μια εταιρεία που αναπτύσσει λογισμικό κειμένου σε ομιλία, είπε σε μια συνέντευξη μέσω email.
"Αυτά τα επίπεδα βελτιώνουν το σήμα, ταξινομώντας το σε πιο σύνθετες ταξινομήσεις", πρόσθεσε. "Το αποτέλεσμα είναι συνθετική ομιλία που ακούγεται παράξενα σαν άνθρωπος."
Μια άλλη τεχνολογία υπό ανάπτυξη είναι η Prosody Transfer, η οποία περιλαμβάνει το συνδυασμό του ήχου μιας φωνής από κείμενο σε ομιλία με το στυλ ομιλίας μιας άλλης, είπε ο Muldoon. Υπάρχει επίσης η μάθηση μεταφοράς, η οποία μειώνει τον όγκο των δεδομένων εκπαίδευσης που απαιτούνται για την παραγωγή μιας νέας νευρικής φωνής μετατροπής κειμένου σε ομιλία.
Ο Ο Κάπλαν είπε ότι η παραγωγή ανθρώπινης ομιλίας απαιτεί επίσης τεράστιες ποσότητες επεξεργαστικής ισχύος. Οι εταιρείες αναπτύσσουν τσιπ νευρωνικών επιταχυντών, τα οποία είναι προσαρμοσμένες μονάδες που λειτουργούν σε συνδυασμό με κανονικούς επεξεργαστές.
"Το επόμενο στάδιο σε αυτό θα είναι η τοποθέτηση αυτών των τσιπ σε μικρότερο υλικό, όπως αυτή τη στιγμή γίνεται ήδη για κάμερες όταν απαιτείται AI για όραση", πρόσθεσε. "Δεν θα αργήσει η δυνατότητα αυτού του τύπου υπολογιστικής ικανότητας να είναι διαθέσιμη στα ίδια τα ακουστικά."
Μια πρόκληση για την ανάπτυξη ομιλίας που βασίζεται στην τεχνητή νοημοσύνη είναι ότι ο καθένας μιλάει διαφορετικά, επομένως οι υπολογιστές τείνουν να δυσκολεύονται να μας καταλάβουν.
"Σκεφτείτε τις προφορές Τζόρτζια εναντίον Βοστώνης εναντίον Βόρειας Ντακότα και εάν τα Αγγλικά είναι η κύρια γλώσσα σας", είπε σε ένα μήνυμα ηλεκτρονικού ταχυδρομείου η Monica Dema, η οποία εργάζεται στα αναλυτικά στοιχεία φωνητικής αναζήτησης στο MDinc. "Σκεπτόμενος σε παγκόσμιο επίπεδο, είναι δαπανηρό να γίνει αυτό για όλες τις περιοχές της Γερμανίας, της Κίνας και της Ινδίας, αλλά αυτό δεν σημαίνει ότι δεν είναι ή δεν μπορεί να γίνει."