"Όταν οι άνθρωποι κοιτάν μία φωτογραφία, καταλαβαίνουν ότι η σκηνή περιορίζεται γεωμετρικά," είπε ο Abhinav Gupta, ένας μεταδιδακτορικός υπότροφος στο CMU Robotics Institute. "Γνωρίζουμε ότι τα κτίρια δεν είναι απείρως λεπτά,ότι οι περισσότεροι πύργοι δεν είναι άπαχοι και ότι τα βαριά αντικείμενα απαιτούν στήριξη. Μπορεί να μην είναι δυνατόν να γνωρίζουμε το τρισδιάστατο μέγεθος και το σχήμα του συνόλου των αντικειμένων στη φωτογραφία, αλλά μπορούμε να περιορίσουμε τις πιθανότητες. Κατά τον ίδιο τρόπο, εάν ένας υπολογιστής μπορεί να αναπαράγει μια εικόνα, μπλοκ με μπλοκ, τότε μπορεί να κατανοήσει καλύτερα την σκηνή."
Αυτή η νέα προσέγγιση για την αυτοματοποιημένη ανάλυση σκηνής θα μπορούσε ενδεχομένως να χρησιμοποιηθεί για να κατανοήσουμε όχι μόνο τα αντικείμενα σε μια σκηνή, αλλά και τους χώρους μεταξύ τους και το τι μπορεί να κρύβετε πίσω από περιοχές που αποκρύπτονται από τα αντικείμενα στο πρώτο πλάνο.
Ο Gupta παρουσίασε την έρευνα στο European Conference on Computer Vision, στην Κρήτη στην Ελλάδα 5-11 Σεπτεμβρίου
Η κατανόηση των υπαίθριων σκηνών, παραμένει μία από τις μεγάλες προκλήσεις της τεχνητής νοημοσύνης. Μια μέθοδος προσέγγισης ήταν ο προσδιορισμός των χαρακτηριστικών μιας σκηνής, όπως τα κτίρια, οι δρόμοι και τα αυτοκίνητα, αλλά αυτό δεν παρέχει καμία κατανόηση της γεωμετρίας σκηνής, όπως η θέση των προσβάσιμων επιφανειών.Μια άλλη προσέγγιση, την οποία καινοτόμησαν ο Hebert και Efros με τον πρώην φοιτητή Derek Hoiem, τώρα του Πανεπιστημίου του Illinois, είναι η χαρτογραφήση των επίπεδων επιφανειών μιας εικόνας και η δημιουργήα μίας 3-D απεικόνιση της εικόνας, παρόμοια με pop-up βιβλίο. Αλλά αυτή η προσέγγιση μπορεί να οδηγήσει σε απεικονίσεις που είναι απίθανες και ενίοτε ανέφικτες για την σημερινή τεχνολογία.
Στη νέα μέθοδο που επινοήθηκε από τον Gupta, Efros και Hebert, η εικόνα είναι πρώτα κατανεμημένη σε διάφορα τμήματα που αντιστοιχούν σε αντικείμενα της εικόνας. Μόλις εντοπιστούν το έδαφος και ο ουρανός, τα άλλα τμήματα ανατέθονται βάση την δυνάμη των γεωμετρικών σχήματων. Τα σχήματα, επίσης, χαρακτηρίζονται ως ελαφρά ή βαριά, ανάλογα με την εμφάνιση, μια επιφάνεια που φαίνεται να είναι ένας τοίχος από τούβλα, για παράδειγμα, θα χαρακτηρισθεί ως βαριά.
Ο υπολογιστής στη συνέχεια επιχειρεί να ανασυνθέσει την εικόνα χρησιμοποιώντας ένα εικονικό μπλοκ. Εάν ένα βαρύ μπλοκ εμφανίζεται ανυποστήρικτο, τότε ο υπολογιστής πρέπει να το αντικαταστήσει με ένα κατάλληλα διαμορφωμένο μπλοκ, ή να υποθέσει ότι το αρχικό μπλόκ είναι κρυμμένο στην αρχική εικόνα.
Ο Gupta είπε, ότι επειδή αυτή η ποιοτική ογκομετρική προσέγγιση για την κατανόηση της σκηνής είναι τόσο νέα, δεν έχουν αποδείχθει ακόμα μεθοδολογίες αξιολόγησης. Είπε ότι κατά την εκτίμηση της διάταξης των επιφανειών, πλην του ουρανού και του εδάφους, η μέθοδος είναι 70% ακριβής, και η απόδοσή της είναι σχεδόν εξίσου καλή κατά τη σύγκριση της με την κατάτμηση του έδαφος. Συνολικά, ο Gupta αξιολόγισε την ανάλυση, πως έιναι πολύ καλή για 30% με 40% των εικόνων.
Ομάδα του e-protasi.com