Σύντομα, μπορεί να μην ξέρετε ότι μιλάτε σε υπολογιστή

👤 Συγγραφέας Abigail Brown 📧 brown@technologyhumans.com.
⏱ Public 2023-12-17 06:44.
🖍 Τελευταία τροποποίηση 2025-01-24 12:06.

Βασικά Takeaways

Η μέρα πλησιάζει γρήγορα που δεν θα μπορείτε να ξεχωρίσετε την ομιλία που δημιουργείται από υπολογιστή από την πραγματική.
Η Google αποκάλυψε πρόσφατα το LaMDA, ένα μοντέλο που θα μπορούσε να επιτρέψει πιο φυσικές συνομιλίες.
Η παραγωγή ομιλίας που μοιάζει με άνθρωπο απαιτεί επίσης τεράστια επεξεργαστική ισχύ.

Αυτή τη στιγμή, είναι εύκολο να καταλάβετε πότε μιλάτε σε υπολογιστή, αλλά αυτό μπορεί να αλλάξει σύντομα χάρη στις πρόσφατες εξελίξεις στην τεχνητή νοημοσύνη.

Η Google αποκάλυψε πρόσφατα το LaMDA, ένα πειραματικό μοντέλο που η εταιρεία ισχυρίζεται ότι θα μπορούσε να ενισχύσει την ικανότητα των βοηθών τεχνητής νοημοσύνης συνομιλίας και να επιτρέψει πιο φυσικές συνομιλίες. Το LaMDA στοχεύει τελικά να συνομιλεί κανονικά για σχεδόν οτιδήποτε χωρίς προηγούμενη εκπαίδευση.

Είναι ένα από έναν αυξανόμενο αριθμό έργων τεχνητής νοημοσύνης που θα μπορούσε να σας αφήσει να αναρωτιέστε αν μιλάτε με έναν άνθρωπο.

"Η εκτίμησή μου είναι ότι μέσα στους επόμενους 12 μήνες, οι χρήστες θα αρχίσουν να εκτίθενται και να συνηθίζουν σε αυτές τις νέες, πιο συναισθηματικές φωνές," James Kaplan, ο Διευθύνων Σύμβουλος του MeetKai, ενός εικονικού βοηθού φωνής και αναζήτησης με τεχνητή νοημοσύνη συνομιλίας κινητήρα, είπε σε μια συνέντευξη μέσω email.

"Μόλις συμβεί αυτό, η συνθετική ομιλία του σήμερα θα ακούγεται στους χρήστες όπως η ομιλία των αρχών της δεκαετίας του 2000 ακούγεται σε εμάς σήμερα."

Βοηθοί φωνής με χαρακτήρα

Το LaMDA της Google είναι χτισμένο στο Transformer, μια αρχιτεκτονική νευρωνικών δικτύων που εφευρέθηκε από την Google Research. Σε αντίθεση με άλλα μοντέλα γλώσσας, το LaMDA της Google εκπαιδεύτηκε στον πραγματικό διάλογο.

Μέρος της πρόκλησης για τη δημιουργία ομιλίας τεχνητής νοημοσύνης με φυσικό ήχο είναι η ανοιχτή φύση των συνομιλιών, έγραψε ο Eli Collins της Google σε μια ανάρτηση ιστολογίου.

"Μια συνομιλία με έναν φίλο για μια τηλεοπτική εκπομπή θα μπορούσε να εξελιχθεί σε μια συζήτηση για τη χώρα όπου γυρίστηκε η εκπομπή πριν καταλήξουμε σε μια συζήτηση για την καλύτερη τοπική κουζίνα αυτής της χώρας", πρόσθεσε.

Τα πράγματα προχωρούν γρήγορα με την ομιλία ρομπότ. Ο Έρικ Ρόζενμπλουμ, διευθύνων σύμβουλος στην Tsingyuan Ventures, η οποία επενδύει στην τεχνητή νοημοσύνη συνομιλίας, είπε ότι μερικά από τα πιο θεμελιώδη προβλήματα στην ομιλία με τη βοήθεια υπολογιστή έχουν ουσιαστικά λυθεί.

Για παράδειγμα, το ποσοστό ακρίβειας στην κατανόηση της ομιλίας είναι ήδη εξαιρετικά υψηλό σε υπηρεσίες όπως μεταγραφές που γίνονται από το λογισμικό Otter.ai ή ιατρικές σημειώσεις που λαμβάνονται από το DeepScribe.

"Το επόμενο σύνορο, ωστόσο, είναι πολύ πιο δύσκολο", πρόσθεσε.

"Η διατήρηση της κατανόησης του πλαισίου, το οποίο είναι ένα πρόβλημα που υπερβαίνει την επεξεργασία της φυσικής γλώσσας, και η ενσυναίσθηση, όπως οι υπολογιστές που αλληλεπιδρούν με τους ανθρώπους πρέπει να κατανοήσουν την απογοήτευση, τον θυμό, την ανυπομονησία κ.λπ. Και τα δύο αυτά ζητήματα εξετάζονται, αλλά και τα δύο απέχουν πολύ από το να είναι ικανοποιητικά."

Τα νευρωνικά δίκτυα είναι το κλειδί

Για να δημιουργήσουν ζωντανές φωνές, οι εταιρείες χρησιμοποιούν τεχνολογία όπως βαθιά νευρωνικά δίκτυα, μια μορφή μηχανικής μάθησης που ταξινομεί δεδομένα μέσω επιπέδων, ο Matt Muldoon, πρόεδρος της Βόρειας Αμερικής στο ReadSpeaker, μια εταιρεία που αναπτύσσει λογισμικό κειμένου σε ομιλία, είπε σε μια συνέντευξη μέσω email.

"Αυτά τα επίπεδα βελτιώνουν το σήμα, ταξινομώντας το σε πιο σύνθετες ταξινομήσεις", πρόσθεσε. "Το αποτέλεσμα είναι συνθετική ομιλία που ακούγεται παράξενα σαν άνθρωπος."

Μια άλλη τεχνολογία υπό ανάπτυξη είναι η Prosody Transfer, η οποία περιλαμβάνει το συνδυασμό του ήχου μιας φωνής από κείμενο σε ομιλία με το στυλ ομιλίας μιας άλλης, είπε ο Muldoon. Υπάρχει επίσης η μάθηση μεταφοράς, η οποία μειώνει τον όγκο των δεδομένων εκπαίδευσης που απαιτούνται για την παραγωγή μιας νέας νευρικής φωνής μετατροπής κειμένου σε ομιλία.

Ο Ο Κάπλαν είπε ότι η παραγωγή ανθρώπινης ομιλίας απαιτεί επίσης τεράστιες ποσότητες επεξεργαστικής ισχύος. Οι εταιρείες αναπτύσσουν τσιπ νευρωνικών επιταχυντών, τα οποία είναι προσαρμοσμένες μονάδες που λειτουργούν σε συνδυασμό με κανονικούς επεξεργαστές.

"Το επόμενο στάδιο σε αυτό θα είναι η τοποθέτηση αυτών των τσιπ σε μικρότερο υλικό, όπως αυτή τη στιγμή γίνεται ήδη για κάμερες όταν απαιτείται AI για όραση", πρόσθεσε. "Δεν θα αργήσει η δυνατότητα αυτού του τύπου υπολογιστικής ικανότητας να είναι διαθέσιμη στα ίδια τα ακουστικά."

Μια πρόκληση για την ανάπτυξη ομιλίας που βασίζεται στην τεχνητή νοημοσύνη είναι ότι ο καθένας μιλάει διαφορετικά, επομένως οι υπολογιστές τείνουν να δυσκολεύονται να μας καταλάβουν.

"Σκεφτείτε τις προφορές Τζόρτζια εναντίον Βοστώνης εναντίον Βόρειας Ντακότα και εάν τα Αγγλικά είναι η κύρια γλώσσα σας", είπε σε ένα μήνυμα ηλεκτρονικού ταχυδρομείου η Monica Dema, η οποία εργάζεται στα αναλυτικά στοιχεία φωνητικής αναζήτησης στο MDinc. "Σκεπτόμενος σε παγκόσμιο επίπεδο, είναι δαπανηρό να γίνει αυτό για όλες τις περιοχές της Γερμανίας, της Κίνας και της Ινδίας, αλλά αυτό δεν σημαίνει ότι δεν είναι ή δεν μπορεί να γίνει."

Συνιστάται:

Σύντομα, μπορεί να μην ξέρετε ότι μιλάτε σε υπολογιστή

Πίνακας περιεχομένων:

Βασικά Takeaways

Βοηθοί φωνής με χαρακτήρα

Τα νευρωνικά δίκτυα είναι το κλειδί

Συνιστάται:

Μπορεί σύντομα να το βρείτε πιο εύκολο να κάνετε ταχυδακτυλουργία εφαρμογών μεταξύ συσκευών Android

Το Wi-Fi 7 είναι σχεδόν εδώ, αλλά οι ειδικοί λένε ότι εξακολουθεί να μην αντικαθιστά το Ethernet

Γιατί το Lightning Connector της Apple μπορεί να μην εξαφανιστεί σύντομα

Το ακουστικό Oculus VR σας ακούει τώρα όταν μιλάτε

Οι ειδικοί λένε ότι μην καλύπτετε την ταυτότητά σας σε βιντεοσυναντήσεις

Εξήγηση της Καθαρής Ουδετερότητας

Οι καλύτερες ταινίες LGBT στο Netflix αυτή τη στιγμή (Αύγουστος 2022)

Πώς να επανεγκαταστήσετε το Windows Defender στα Windows 11

Πώς να απενεργοποιήσετε το OneDrive στα Windows 11

Πώς να απενεργοποιήσετε τη βροχή στο Minecraft

Πώς να κάνετε επανεκκίνηση ενός Mac σε λειτουργία ανάκτησης

Τρόπος λήψης στιγμιότυπου οθόνης σε φορητό υπολογιστή Surface

Πώς να ελέγξετε τη θερμοκρασία του MacBook

Γιατί το επόμενο τηλέφωνό σας πιθανότατα δεν θα έχει ανίχνευση ακτίνων

LG Pay To Shut Down τον Νοέμβριο

Οδηγός αγοραστή επεξεργαστή φορητών υπολογιστών

Πώς να τραβήξετε στιγμιότυπα οθόνης στα Windows 10, 8 και 7

Αρχείο RW2 (Τι είναι και πώς να ανοίξετε ένα)

Τα 10 καλύτερα παιχνίδια VR Puzzle και Escape Room

Γούφερ, τουίτερ και crossovers: Κατανόηση των ηχείων