Είναι καλές ή κακές αυτές οι εξαιρετικά εντυπωσιακές φωνές ακουστικών βιβλίων AI;

Πίνακας περιεχομένων:

Είναι καλές ή κακές αυτές οι εξαιρετικά εντυπωσιακές φωνές ακουστικών βιβλίων AI;
Είναι καλές ή κακές αυτές οι εξαιρετικά εντυπωσιακές φωνές ακουστικών βιβλίων AI;
Anonim

Βασικά Takeaways

  • DeepZen χρησιμοποιεί AI (τεχνητή νοημοσύνη) για να δημιουργήσει εκπληκτικά ρεαλιστικά ηχητικά βιβλία από κείμενο.
  • Η τεχνολογία χρησιμοποιεί πραγματικούς ανθρώπους φωνής για να παρέχει τα δομικά στοιχεία.
  • Amazon και Audible προς το παρόν δεν δέχονται ηχητικά βιβλία που δημιουργούνται από υπολογιστή.
Image
Image

Η DeepZen είναι μια εταιρεία που δημιουργεί φωνές υπολογιστών που χρησιμοποιούνται σε ηχητικά βιβλία, βασισμένες στις πραγματικές φωνές των ανθρώπινων ηθοποιών. Η ποιότητα είναι τρομακτική - αρκετά καλή για να την ακούς για ώρες τη φορά. Το τέχνασμα εδώ είναι το στοιχείο AI (τεχνητή νοημοσύνη), το οποίο μπορεί να διαβάσει το κείμενο και να συναγάγει τη σωστή συναισθηματική απόκριση με βάση το πλαίσιο. Στη συνέχεια βάζει αυτό το συναίσθημα στη φωνή.

Είναι εντυπωσιακό και πολύ βολικό. Θέλουμε όμως πραγματικά μια ομογενοποιημένη εμπειρία audiobook; Και τι γίνεται με αυτούς τους φωνητικούς ηθοποιούς;

"Από την οπτική γωνία του ανεξάρτητου εκδότη, οτιδήποτε μειώνει το κόστος παραγωγής ηχητικών βιβλίων είναι πολύ ενδιαφέρον", είπε ο Rick Carlile, ιδιοκτήτης του ανεξάρτητου εκδότη Carlile Media, στο Lifewire μέσω email.

"Αλλά αυτή η έλξη προϋποθέτει ότι το προϊόν θα ήταν της ίδιας ποιότητας με την παραδοσιακή αφήγηση. Δεν νομίζω ότι είμαστε εκατό τοις εκατό ακόμα εκεί. Μην με παρεξηγήσετε, το DeepZen είναι εκπληκτικά καλό. Είναι ένα τρομερή ανακάλυψη και οι δημιουργοί του αξίζουν τεράστιους επαίνους και επιτυχία. Αλλά δεν είναι ακόμα τέλειο."

Ήχος που είναι "αρκετά καλός"

Ο καλύτερος τρόπος για να κατανοήσετε την ποιότητα του DeepZen είναι να ακούσετε τα δείγματα. Αν δεν ξέρατε ότι δημιουργήθηκαν από υπολογιστή, ίσως να μην το καταλάβατε καν. Όχι για λίγο πάντως. Ας υποθέσουμε ότι το AI του DeepZen είναι τέλειο και ότι ποτέ δεν παρερμηνεύει τις συναισθηματικές νότες που υποτίθεται ότι χτυπά.

Image
Image

Ακόμα και τότε, ένας άνθρωπος μπορεί να προσφέρει πιο αποχρώσεις και συχνά πιο εκπληκτικές ερμηνείες. Ένας ηθοποιός μπορεί να κάνει μια απροσδόκητη ανατροπή στις λέξεις που ένας υπολογιστής δεν θα σκεφτόταν ποτέ. Και στην πραγματικότητα, η ερμηνεία της τεχνητής νοημοσύνης σίγουρα δεν είναι ακόμα τόσο καλή όσο αυτή ενός επαγγελματία ηθοποιού.

"Ως κάποιος που εργάζεται σε ταινίες και πιο πρόσφατα στον κόσμο της ηχητικής αφήγησης, ενώ είμαι εντυπωσιασμένος με την τεχνητή νοημοσύνη-Γνωρίζω στα αλήθεια ότι υπάρχουν βαθιά βάθη νοήματος που μια μηχανή δεν μπορεί να ερμηνεύσει, " επαγγελματική φωνή Ο ηθοποιός Paul Cram είπε στο Lifewire μέσω email.

"Θα υπάρξει κύμα άγνωστων συγγραφέων που θα το χρησιμοποιήσουν; Εγγυώμαι ότι θα το κάνουν επειδή είναι "αρκετά καλό".

Το να είσαι αρκετά καλός, σε συνδυασμό με την ευκολία και την εξοικονόμηση κόστους, μπορεί να είναι αρκετό για να οδηγήσει τους ανεξάρτητους εκδότες στην υπηρεσία.

"Τα ηχητικά βιβλία μπορεί να κοστίζουν έως και 500 $ ανά τελική ώρα ήχου (πολύ περισσότερο για μια φωνή διασημοτήτων) και αυτό δεν περιλαμβάνει το κόστος χρόνου διαχείρισης και διαχείρισης", λέει ο Carlile. "Το να μπορείς να μειώσεις στο μισό αυτό το κόστος ανεβάζοντας απλώς ένα χειρόγραφο σε έναν πάροχο όπως το DeepZen είναι εξαιρετικά ελκυστικό."

Πρόβλημα με την ομιλία

Δεν είναι ακόμα τόσο εύκολο όσο να απολύσεις τους φωνητικούς σου ηθοποιούς και να ανεβάσεις χειρόγραφα στο DeepZen. Υπάρχει επί του παρόντος ένα εμπόδιο στην εύκολη ομιλία AI ηχητικού βιβλίου και είναι από την Amazon.

Image
Image

"Προς το παρόν, η ACX, η διαδρομή του αυτοεκδότη προς τη διανομή ακουστικών βιβλίων Audible και Amazon, δεν θα δέχεται ηχητικά βιβλία που δεν έχει ηχογραφήσει ένας άνθρωπος", λέει ο Carlile.

Γιατί; Ποιότητα. Ακολουθεί η καταχώριση Συχνών Ερωτήσεων από τον ιστότοπο:

"Δεν επιτρέπονται οι εγγραφές κειμένου σε ομιλία ή άλλες αυτοματοποιημένες εγγραφές. Οι ακουστικοί ακροατές επιλέγουν ηχητικά βιβλία για την απόδοση του υλικού, καθώς και της ιστορίας. Για να ανταποκριθεί σε αυτήν την προσδοκία, το ηχητικό βιβλίο σας πρέπει να ηχογραφηθεί από άνθρωπο."

Αυτό σημαίνει ότι τα ηχητικά βιβλία που δημιουργήθηκαν από το DeepZen έχουν κυκλοφορήσει, τουλάχιστον προς το παρόν. Αυτό είναι καθαρή εικασία, αλλά το DeepZen θα φαινόταν σαν μια πολύ καλή εξαγορά για την Amazon, επιτρέποντάς της να πουλήσει την υπηρεσία και να τη διατηρήσει αποκλειστικά για βιβλία Audible. Και ακόμα κι αν αυτό δεν συμβεί, αν η ποιότητα των ηχητικών βιβλίων που παράγονται από υπολογιστή είναι τόσο καλή όσο αυτή, τότε δεν φαίνεται να υπάρχει λόγος να μην γίνει εξαίρεση σε αυτόν τον κανόνα.

Θα χαρείτε να ακούσετε ηχητικά βιβλία που φτιάχτηκαν με αυτόν τον τρόπο; Όταν συμβεί, οι περισσότεροι άνθρωποι δεν θα υποψιαστούν καν. Κάποιοι μπορεί να προτιμούν την τελειότητα των φωνών που δημιουργούνται από υπολογιστή επειδή θα απαλλαγούν από τα φωνητικά τικ και τις συνήθειες που μερικές φορές μπορεί να αποσπάσουν την προσοχή. Η τεχνολογία είναι επίσης κατάλληλη για βιντεοπαιχνίδια, τηλεοπτικές και ραδιοφωνικές διαφημίσεις και κάθε άλλο σενάριο όπου θα προσλάβατε έναν ηθοποιό φωνής.

Η τεχνολογία του DeepZen θα ήταν επίσης ένας πολύ καλός τρόπος για την αυτόματη δημιουργία podcast ειδήσεων από γραπτά άρθρα, τα οποία θα μπορούσαν να είναι χρήσιμα για τις μετακινήσεις σας.

Και τι γίνεται με αυτούς τους φωνητικούς ηθοποιούς; Λοιπόν, θα υπάρχει τουλάχιστον μία ευκαιρία: Μπορούν να πάνε και να δουλέψουν για το DeepZen.

Συνιστάται: