Βασικά Takeaways
- Η Nvidia έδειξε πρόσφατα μια τεχνική που μετατρέπει τις 2D φωτογραφίες σε 3D σκηνές μέσα σε λίγα δευτερόλεπτα.
- Η μέθοδος χρησιμοποιεί την ισχύ του υπολογιστή για να υπολογίσει κατά προσέγγιση πώς συμπεριφέρεται το φως στον πραγματικό κόσμο.
- Το μετασύμπαν είναι ένας τομέας όπου οι τρισδιάστατες σκηνές είναι χρήσιμες επειδή μπορούν να προβληθούν από οποιαδήποτε οπτική γωνία της κάμερας.
Η νέα τεχνολογία τεχνητής νοημοσύνης (AI) της Nvidia θα μπορούσε σύντομα να μετατρέψει τις 2D φωτογραφίες σε 3D σκηνές μέσα σε λίγα δευτερόλεπτα, καθιστώντας τη δημιουργία καθηλωτικών εικονικών χώρων όπως το metaverse τόσο ασήμαντη όσο η επεξεργασία κειμένου.
Η Nvidia έδειξε πρόσφατα τη μέθοδο φωτογραφίας που ονομάζεται Instant NeRF, η οποία χρησιμοποιεί υπολογιστική ισχύ για να υπολογίσει κατά προσέγγιση πώς συμπεριφέρεται το φως στον πραγματικό κόσμο. Θα μπορούσε να μεταμορφώσει τις παλιές σας φωτογραφίες σε σκηνή βιντεοπαιχνιδιών ή μπορεί να χρησιμοποιηθεί για την εκπαίδευση ρομπότ και αυτοοδηγούμενων αυτοκινήτων ώστε να κατανοούν το μέγεθος και το σχήμα αντικειμένων του πραγματικού κόσμου.
"Η τρισδιάστατη απεικόνιση φέρνει έναν νέο κόσμο μετασχηματισμού", δήλωσε στο Lifewire σε μια συνέντευξη μέσω email ο Oren Debbi, ο Διευθύνων Σύμβουλος της Visionary.ai, μιας εταιρείας υπολογιστικής όρασης που εκτελεί τους τρισδιάστατους αλγόριθμους της στην πλατφόρμα Nvidia. "Χρησιμοποιώντας το 3D, μιμείτε το βάθος του πραγματικού κόσμου στη σκηνή και κάνετε την εικόνα να φαίνεται πιο ζωντανή και ρεαλιστική. Εκτός από τις AR/VR και τις βιομηχανικές κάμερες, όπου το 3D είναι πολύ συνηθισμένο, το βλέπουμε τώρα να χρησιμοποιείται σχεδόν σε κάθε smartphone χωρίς ο χρήστης γνωρίζει ακόμα."
Προσθήκη ιδιοτήτων
Η πρώτη στιγμιαία φωτογραφία, που τραβήχτηκε πριν από 75 χρόνια με μια κάμερα Polaroid, είχε στόχο να αποτυπώσει γρήγορα τον τρισδιάστατο κόσμο σε μια εικόνα 2D. Τώρα, οι ερευνητές τεχνητής νοημοσύνης εργάζονται για το αντίθετο: μετατρέπουν μια συλλογή ακίνητων εικόνων σε ψηφιακή τρισδιάστατη σκηνή σε δευτερόλεπτα.
Γνωστή ως αντίστροφη απόδοση, η διαδικασία χρησιμοποιεί τεχνητή νοημοσύνη για να προσεγγίσει πώς συμπεριφέρεται το φως στον πραγματικό κόσμο, επιτρέποντας στους ερευνητές να ανασυνθέσουν μια τρισδιάστατη σκηνή από μια χούφτα δισδιάστατων εικόνων που λαμβάνονται σε διαφορετικές γωνίες. Η Nvidia ισχυρίζεται ότι έχει αναπτύξει μια προσέγγιση που ολοκληρώνει αυτήν την εργασία σχεδόν αμέσως.
Η Nvidia χρησιμοποίησε αυτήν την προσέγγιση με μια νέα τεχνολογία που ονομάζεται νευρωνικά πεδία ακτινοβολίας ή NeRF. Η εταιρεία λέει ότι το αποτέλεσμα, που ονομάστηκε Instant NeRF, είναι η ταχύτερη τεχνική NeRF μέχρι σήμερα. Το μοντέλο απαιτεί μόλις δευτερόλεπτα για να εκπαιδευτεί σε μερικές δεκάδες στατικές φωτογραφίες και στη συνέχεια μπορεί να αποδώσει την προκύπτουσα τρισδιάστατη σκηνή μέσα σε δεκάδες χιλιοστά του δευτερολέπτου.
"Εάν οι παραδοσιακές τρισδιάστατες αναπαραστάσεις όπως τα πολυγωνικά πλέγματα είναι παρόμοιες με διανυσματικές εικόνες, τα NeRF είναι σαν εικόνες bitmap: αποτυπώνουν πυκνά τον τρόπο με τον οποίο το φως ακτινοβολεί από ένα αντικείμενο ή μέσα σε μια σκηνή", δήλωσε ο David Luebke, αντιπρόεδρος για την έρευνα γραφικών στο Η Nvidia, δήλωσε σε ένα δελτίο τύπου: «Με αυτή την έννοια, το Instant NeRF θα μπορούσε να είναι τόσο σημαντικό για το 3D όσο οι ψηφιακές φωτογραφικές μηχανές και η συμπίεση JPEG για τη φωτογραφία 2D - αυξάνοντας κατά πολύ την ταχύτητα, την ευκολία και την εμβέλεια της τρισδιάστατης λήψης και κοινής χρήσης."
Η συλλογή δεδομένων για την τροφοδοσία ενός NeRF απαιτεί από το νευρωνικό δίκτυο να καταγράψει μερικές δεκάδες εικόνες που λαμβάνονται από πολλές θέσεις γύρω από τη σκηνή, καθώς και τη θέση της κάμερας καθεμιάς από αυτές τις λήψεις.
Το NeRF εκπαιδεύει ένα μικρό νευρωνικό δίκτυο για να ανακατασκευάσει τη σκηνή προβλέποντας το χρώμα του φωτός που ακτινοβολεί προς οποιαδήποτε κατεύθυνση, από οποιοδήποτε σημείο του τρισδιάστατου χώρου.
Η έκκληση του 3D
Το μετασύμπαν είναι ένας τομέας όπου οι τρισδιάστατες σκηνές είναι χρήσιμες επειδή μπορούν να προβληθούν από οποιαδήποτε οπτική γωνία της κάμερας, είπε ο Μπραντ Κουίντον, ιδρυτής της πλατφόρμας Perceptus για επαυξημένη πραγματικότητα (AR), σε μια συνέντευξη στο Lifewire. Ακριβώς όπως μπορούμε να περπατήσουμε μέσα από ένα δωμάτιο στην πραγματική ζωή και να δούμε το περιεχόμενό του από πολλές διαφορετικές οπτικές γωνίες, με μια ανακατασκευασμένη τρισδιάστατη σκηνή, μπορούμε εικονικά να κινηθούμε μέσα σε ένα χώρο και να τον δούμε από οποιαδήποτε οπτική γωνία.
"Αυτό μπορεί να είναι ιδιαίτερα χρήσιμο για τη δημιουργία περιβαλλόντων για χρήση στην εικονική πραγματικότητα", είπε ο Quinton.
Προγράμματα όπως το Object Capture της Apple χρησιμοποιούν μια τεχνική που ονομάζεται φωτογραμμετρία για να δημιουργήσουν εικονικά τρισδιάστατα αντικείμενα από μια σειρά 2D εικόνων. Τα τρισδιάστατα μοντέλα θα χρησιμοποιηθούν εκτενώς σε εφαρμογές εικονικής πραγματικότητας και AR, προέβλεψε ο Quinton. Για παράδειγμα, ορισμένα AI, όπως αυτό στην πλατφόρμα Perceptus AR, χρησιμοποιούν τρισδιάστατα μοντέλα για να δημιουργήσουν μια κατανόηση του πραγματικού κόσμου, που επιτρέπει εφαρμογές AR σε πραγματικό χρόνο.
Η χρήση τρισδιάστατων εικόνων μιμείται επίσης το βάθος του πραγματικού κόσμου σε μια σκηνή και κάνει την εικόνα να φαίνεται πιο ζωντανή και ρεαλιστική, είπε η Debbi. Για να δημιουργήσετε ένα εφέ Bokeh (γνωστή και ως λειτουργία πορτρέτου ή κινηματογραφική λειτουργία), είναι απαραίτητη η τρισδιάστατη χαρτογράφηση βάθους. Η τεχνική χρησιμοποιείται σχεδόν σε κάθε smartphone.
"Αυτό είναι ήδη το πρότυπο για επαγγελματίες βιντεογράφους που γυρίζουν ταινίες και αυτό γίνεται το πρότυπο για κάθε καταναλωτή", πρόσθεσε η Debbi.