Βασικά Takeaways
- Το DALL·E είναι ένα νέο νευρωνικό δίκτυο που μπορεί να σχεδιάζει εικόνες με βάση κείμενο.
- Το δίκτυο είναι ένα από έναν αυξανόμενο αριθμό έργων τεχνητής νοημοσύνης που μπορούν να μιμηθούν τη δημιουργική παραγωγή των ανθρώπων.
- Οι ειδικοί λένε ότι οι εικόνες που σχεδιάζονται από AI δεν είναι πρωτότυπες δημιουργίες.
Μετακινηθείτε, Πικάσο. Ένα νέο νευρωνικό δίκτυο μπορεί να σχεδιάζει εικόνες με βάση κείμενο.
Το DALL·E, ένα portmanteau με τα ονόματα του καλλιτέχνη Salvador Dalí και του WALL·E της Pixar, μπορεί να πάρει οποιοδήποτε κείμενο και να δημιουργήσει μια εικόνα από αυτό. Το σύστημα χρησιμοποιεί ένα νευρωνικό δίκτυο που έχει εκπαιδευτεί σε δισεκατομμύρια εικόνες και παραδείγματα κειμένου. Είναι ένα από έναν αυξανόμενο αριθμό έργων τεχνητής νοημοσύνης που μπορούν να μιμηθούν, αλλά όχι να αναπαράγουν, το δημιουργικό αποτέλεσμα των ανθρώπινων όντων.
"Επειδή η φυσική γλώσσα εξελίσσεται διαρκώς και εξαρτάται πολύ από τις αποχρώσεις των συμφραζομένων, το να μάθεις μια μηχανή να κατανοεί τη γλώσσα αρκετά καλά για να ζωγραφίζει μια εικόνα είναι ένα πολύ σημαντικό επίτευγμα", η Tamara Schwartz, καθηγήτρια κυβερνοασφάλειας στο York College of Pennsylvania, είπε σε συνέντευξη μέσω email. "Φανταστείτε έναν αστυνομικό σκιτσογράφο, αυτό είναι ένα σπάνιο ταλέντο, που έχει την ικανότητα να δημιουργεί μια εικόνα με βάση μια περιγραφή μάρτυρα."
Χρήση μεγάλων δεδομένων για την παραγωγή εικόνων
Το DALL-E δημιουργήθηκε από την ερευνητική εταιρεία τεχνητής νοημοσύνης OpenAI και λειτουργεί με τη συσσώρευση τεράστιων ποσοτήτων δεδομένων από το Διαδίκτυο. Στη συνέχεια, τα δεδομένα επεξεργάζονται από ένα μοντέλο φυσικής γλώσσας και εκπαιδεύονται για την παραγωγή εικόνων από κείμενο. Το DALL-E λειτουργεί παρόμοια με το GPT-3 που κυκλοφόρησε πρόσφατα, ένα μοντέλο γλώσσας που δημιουργήθηκε από το OpenAI και μπορεί να ζητηθεί να δημιουργήσει πρωτότυπα αποσπάσματα κειμένου. Το GPT-3 εκπαιδεύτηκε χρησιμοποιώντας μισό τρισεκατομμύριο λέξεις κειμένου στο Διαδίκτυο και μπορεί να παράγει εκπληκτικά ζωντανό κείμενο.
Το να διδάξεις μια μηχανή να κατανοεί τη γλώσσα αρκετά καλά για να σχεδιάζει μια εικόνα είναι ένα πολύ σημαντικό επίτευγμα.
Michael Yurushkin, ιδρυτής και CTO της BroutonLab, μιας εταιρείας επιστήμης δεδομένων, είπε σε μια συνέντευξη μέσω email ότι το DALL-E είναι «ένα από τα λίγα επιτυχημένα τρυπήματα της ανθρωπότητας στο να μιμηθεί τη δημιουργικότητα και τη φαντασία μας». Πρόσθεσε, «Είναι ευκολότερο να συνειδητοποιήσουμε πώς η τεχνητή νοημοσύνη προβλέπει κάτι περνώντας από σχετικά δεδομένα, αλλά η κατανόηση του τρόπου με τον οποίο είναι σε θέση να δημιουργήσει σχέδια από πράγματα για τα οποία δεν «άκουσε» ποτέ πριν είναι πιο δύσκολο."
Ο Schwartz σημειώνει προσεκτικά ότι η τεχνητή νοημοσύνη δεν δημιουργεί πληροφορίες, αλλά λαμβάνει δεδομένα γλώσσας και τα μετατρέπει σε εικόνες.
"Η αρχική δημιουργικότητα προέρχεται από τον άνθρωπο που κατασκεύασε την εργασία", είπε ο Schwartz. «Υπάρχει κάποια «δημιουργικότητα» από την πλευρά του AI, επειδή πειραματίζεται με διάφορους συνδυασμούς δεδομένων και στη συνέχεια επιλέγει από έναν αριθμό πιθανών εξόδων. Ωστόσο, ένας άνθρωπος εξετάζει τα αποτελέσματα και διδάσκει στην τεχνητή νοημοσύνη πώς να επιλέγει από τους πολλούς συνδυασμούς."
Robot Detective Work?
Μια μηχανή μπορεί να πειραματιστεί με αυτόν τον συνδυασμό δεδομένων και αντικειμένων πολύ πιο γρήγορα από έναν άνθρωπο καλλιτέχνη. Ο Schwartz σημείωσε ότι η DALL-E θα μπορούσε μια μέρα να συνεργαστεί με έναν ντετέκτιβ που προσπαθεί να ανασκευάσει μια σκηνή εγκλήματος μέσω ενός σκίτσου, βασισμένο σε μαρτυρίες αυτόπτων μαρτύρων.
"Καθώς οι μάρτυρες παρέχουν τις καταθέσεις τους, ο υπολογιστής θα μπορούσε να λάβει αυτές τις προφορικές πληροφορίες φυσικής γλώσσας και να δημιουργήσει ένα σχέδιο της σκηνής ή πολλά σχέδια της σκηνής", είπε. "Αυτές οι οπτικοποιήσεις θα μπορούσαν στη συνέχεια να ενσωματωθούν για να δημιουργήσουν μια πιο ακριβή εικόνα των χαμένων αποδεικτικών στοιχείων. Αυτή η οπτικοποίηση θα μπορούσε να εμπλουτιστεί με την ενσωμάτωση προηγούμενων εικόνων της τοποθεσίας πριν από το έγκλημα."
Αρκετά άλλα προγράμματα που βασίζονται σε τεχνητή νοημοσύνη μπορούν να παράγουν τέχνη. Για παράδειγμα, ο Ai-Da χρησιμοποιεί ένα σύστημα ρομποτικού βραχίονα και τεχνολογία αναγνώρισης προσώπου σε συνδυασμό με τεχνητή νοημοσύνη για τη δημιουργία τέχνης. Το σύστημα μπορεί να αναλύσει μια εικόνα που τοποθετείται μπροστά από το μηχάνημα, η οποία τροφοδοτείται σε έναν αλγόριθμο για να παράγει τις κινήσεις των χεριών του ρομπότ.
Ωστόσο, οι άνθρωποι καλλιτέχνες δεν πρέπει να ανησυχούν ότι οι ρομποτικοί άρχοντες θα τους αντικαταστήσουν, υποστήριξε ο Ahmed Elgammal, διευθυντής του Εργαστηρίου Τέχνης και Τεχνητής Νοημοσύνης στο Πανεπιστήμιο Rutgers, στους New York Times πέρυσι.
"Ενώ ο ορισμός της τέχνης εξελίσσεται συνεχώς, στον πυρήνα του, είναι μια μορφή επικοινωνίας μεταξύ των ανθρώπων", έγραψε. "Χωρίς έναν άνθρωπο καλλιτέχνη πίσω από το μηχάνημα, η τεχνητή νοημοσύνη δεν μπορεί να κάνει τίποτα περισσότερο από το να παίζει με τη φόρμα, είτε αυτό σημαίνει χειρισμός εικονοστοιχείων σε μια οθόνη είτε νότες σε ένα μουσικό βιβλίο. Αυτές οι δραστηριότητες μπορεί να είναι ελκυστικές και αντιληπτικά ενδιαφέρουσες, αλλά δεν έχουν νόημα χωρίς αλληλεπίδραση μεταξύ καλλιτέχνης και κοινό."
Αφού ρίξω μια ματιά στο έργο του DALL-E, καταλαβαίνω την άποψη του Elgammal ότι οι εικόνες που δημιουργούνται από την τεχνητή νοημοσύνη δεν είναι τέχνη. Από την άλλη, είναι καλύτερα από οποιαδήποτε τέχνη θα μπορούσα να δημιουργήσω. Λοιπόν, αλήθεια, ποια είναι η διαφορά;