Το AI μπορεί τώρα να κατανοήσει τα βίντεό σας παρακολουθώντας τα

Πίνακας περιεχομένων:

Το AI μπορεί τώρα να κατανοήσει τα βίντεό σας παρακολουθώντας τα
Το AI μπορεί τώρα να κατανοήσει τα βίντεό σας παρακολουθώντας τα
Anonim

Βασικά Takeaways

  • Ερευνητές λένε ότι μπορούν να διδάξουν την τεχνητή νοημοσύνη να επισημαίνει βίντεο παρακολουθώντας και ακούγοντας.
  • Το σύστημα AI μαθαίνει να αναπαριστά δεδομένα για να συλλαμβάνει έννοιες που μοιράζονται μεταξύ οπτικών και ακουστικών δεδομένων.
  • Είναι μέρος μιας προσπάθειας να διδάξουμε την τεχνητή νοημοσύνη να κατανοεί έννοιες που οι άνθρωποι δεν έχουν πρόβλημα να μάθουν αλλά τις οποίες οι υπολογιστές δυσκολεύονται να κατανοήσουν.

Image
Image

Ένα νέο σύστημα τεχνητής νοημοσύνης (AI) θα μπορούσε να παρακολουθεί και να ακούει τα βίντεό σας και να επισημαίνει πράγματα που συμβαίνουν.

Ερευνητές του MIT ανέπτυξαν μια τεχνική που διδάσκει την τεχνητή νοημοσύνη να καταγράφει ενέργειες που μοιράζονται μεταξύ βίντεο και ήχου. Για παράδειγμα, η μέθοδός τους μπορεί να καταλάβει ότι η πράξη ενός μωρού που κλαίει σε ένα βίντεο σχετίζεται με την προφορική λέξη «κλαίει» σε ένα ηχητικό κλιπ. Είναι μέρος μιας προσπάθειας να διδαχθεί η τεχνητή νοημοσύνη πώς να κατανοεί έννοιες που οι άνθρωποι δεν έχουν πρόβλημα να μάθουν, αλλά οι υπολογιστές δυσκολεύονται να κατανοήσουν.

"Το διαδεδομένο παράδειγμα μάθησης, η εποπτευόμενη μάθηση, λειτουργεί καλά όταν έχετε σύνολα δεδομένων που περιγράφονται καλά και είναι ολοκληρωμένα", δήλωσε ο ειδικός της τεχνητής νοημοσύνης Phil Winder σε μια συνέντευξη μέσω email στο Lifewire. "Δυστυχώς, τα σύνολα δεδομένων σπάνια είναι πλήρη, επειδή ο πραγματικός κόσμος έχει την κακή συνήθεια να παρουσιάζει νέες καταστάσεις."

Εξυπνότερο AI

Οι υπολογιστές δυσκολεύονται να καταλάβουν τα καθημερινά σενάρια, επειδή πρέπει να συγκρατούν δεδομένα αντί για ήχο και εικόνες όπως οι άνθρωποι. Όταν ένα μηχάνημα "βλέπει" μια φωτογραφία, πρέπει να κωδικοποιήσει αυτήν τη φωτογραφία σε δεδομένα που μπορεί να χρησιμοποιήσει για να εκτελέσει μια εργασία όπως μια ταξινόμηση εικόνων. Το AI μπορεί να κολλήσει όταν οι είσοδοι έρχονται σε πολλές μορφές, όπως βίντεο, κλιπ ήχου και εικόνες.

"Η κύρια πρόκληση εδώ είναι, πώς μπορεί μια μηχανή να ευθυγραμμίσει αυτούς τους διαφορετικούς τρόπους; Ως άνθρωποι, αυτό είναι εύκολο για εμάς", είπε ο Alexander Liu, ερευνητής του MIT και πρώτος συγγραφέας μιας εργασίας σχετικά με το θέμα. δελτίο ειδήσεων. "Βλέπουμε ένα αυτοκίνητο και μετά ακούμε τον ήχο ενός αυτοκινήτου που περνάει και ξέρουμε ότι είναι το ίδιο πράγμα. Αλλά για τη μηχανική μάθηση, δεν είναι τόσο απλό."

Η ομάδα του Liu ανέπτυξε μια τεχνική τεχνητής νοημοσύνης που λέει ότι μαθαίνει να αναπαριστά δεδομένα για να συλλαμβάνει έννοιες που μοιράζονται μεταξύ οπτικών και ακουστικών δεδομένων. Χρησιμοποιώντας αυτή τη γνώση, το μοντέλο μηχανικής μάθησης που διαθέτουν μπορεί να εντοπίσει πού λαμβάνει χώρα μια συγκεκριμένη ενέργεια σε ένα βίντεο και να το χαρακτηρίσει.

Το νέο μοντέλο λαμβάνει ακατέργαστα δεδομένα, όπως βίντεο και τους αντίστοιχους λεζάντες κειμένου, και τα κωδικοποιεί εξάγοντας χαρακτηριστικά ή παρατηρήσεις σχετικά με αντικείμενα και ενέργειες στο βίντεο. Στη συνέχεια, χαρτογραφεί αυτά τα σημεία δεδομένων σε ένα πλέγμα, γνωστό ως χώρος ενσωμάτωσης. Το μοντέλο συγκεντρώνει παρόμοια δεδομένα μαζί ως μεμονωμένα σημεία στο πλέγμα. καθένα από αυτά τα σημεία δεδομένων, ή διανύσματα, αντιπροσωπεύεται από μια μεμονωμένη λέξη.

Για παράδειγμα, ένα βίντεο κλιπ ενός ατόμου που κάνει ζογκλέρ μπορεί να αντιστοιχιστεί σε ένα διάνυσμα με την ένδειξη "ταχυδακτυλουργία."

Οι ερευνητές σχεδίασαν το μοντέλο έτσι ώστε να μπορεί να χρησιμοποιεί μόνο 1.000 λέξεις για την επισήμανση διανυσμάτων. Το μοντέλο μπορεί να αποφασίσει ποιες ενέργειες ή έννοιες θέλει να κωδικοποιήσει σε ένα μόνο διάνυσμα, αλλά μπορεί να χρησιμοποιήσει μόνο 1.000 διανύσματα. Το μοντέλο επιλέγει τις λέξεις που πιστεύει ότι αντιπροσωπεύουν καλύτερα τα δεδομένα.

"Εάν υπάρχει βίντεο για χοίρους, το μοντέλο μπορεί να αντιστοιχίσει τη λέξη "γουρούνι" σε ένα από τα 1.000 διανύσματα. Στη συνέχεια, αν το μοντέλο ακούσει κάποιον να λέει τη λέξη "γουρούνι" σε ένα ηχητικό κλιπ, θα πρέπει να εξακολουθεί να χρησιμοποιεί το ίδιο διάνυσμα για να το κωδικοποιήσει», εξήγησε ο Λιου.

Τα βίντεό σας, αποκωδικοποιημένα

Καλύτερα συστήματα επισήμανσης, όπως αυτό που αναπτύχθηκε από το MIT, θα μπορούσαν να βοηθήσουν στη μείωση της μεροληψίας στην τεχνητή νοημοσύνη, δήλωσε στο Lifewire σε συνέντευξη μέσω email η Marian Beszedes, επικεφαλής έρευνας και ανάπτυξης στη βιομετρική εταιρεία Innovatrics. Ο Beszedes πρότεινε ότι η βιομηχανία δεδομένων μπορεί να δει τα συστήματα τεχνητής νοημοσύνης από την οπτική γωνία της διαδικασίας παραγωγής.

"Τα συστήματα δέχονται τα ακατέργαστα δεδομένα ως είσοδο (πρώτες ύλες), τα προεπεξεργάζονται, τα απορροφούν, λαμβάνουν αποφάσεις ή προβλέψεις και εξάγουν αναλυτικά στοιχεία (έτοιμα προϊόντα", είπε ο Beszedes. "Ονομάζουμε αυτή τη ροή διεργασιών "εργοστάσιο δεδομένων" και, όπως και άλλες διαδικασίες παραγωγής, θα πρέπει να υπόκειται σε ποιοτικούς ελέγχους. Η βιομηχανία δεδομένων πρέπει να αντιμετωπίζει την προκατάληψη της τεχνητής νοημοσύνης ως πρόβλημα ποιότητας.

"Από την σκοπιά του καταναλωτή, τα δεδομένα με εσφαλμένη ετικέτα καθιστούν, π.χ., την αναζήτηση στο διαδίκτυο για συγκεκριμένες εικόνες/βίντεο πιο δύσκολη", πρόσθεσε ο Beszedes. "Με σωστά ανεπτυγμένη τεχνητή νοημοσύνη, μπορείτε να κάνετε την επισήμανση αυτόματα, πολύ πιο γρήγορα και πιο ουδέτερα από ό,τι με τη χειροκίνητη επισήμανση."

Image
Image

Αλλά το μοντέλο του MIT εξακολουθεί να έχει ορισμένους περιορισμούς. Πρώτον, η έρευνά τους επικεντρώθηκε σε δεδομένα από δύο πηγές κάθε φορά, αλλά στον πραγματικό κόσμο, οι άνθρωποι αντιμετωπίζουν πολλούς τύπους πληροφοριών ταυτόχρονα, είπε ο Liu

"Και ξέρουμε ότι 1.000 λέξεις λειτουργούν σε αυτό το είδος δεδομένων, αλλά δεν ξέρουμε αν μπορεί να γενικευθεί σε ένα πραγματικό πρόβλημα", πρόσθεσε ο Liu.

Οι ερευνητές του MIT λένε ότι η νέα τεχνική τους ξεπερνά πολλά παρόμοια μοντέλα. Εάν η τεχνητή νοημοσύνη μπορεί να εκπαιδευτεί στην κατανόηση βίντεο, ίσως μπορέσετε τελικά να παραλείψετε να παρακολουθήσετε τα βίντεο των διακοπών του φίλου σας και να λάβετε μια αναφορά που δημιουργείται από υπολογιστή.

Συνιστάται: