Multimodal video understanding using weakly supervised learning techniques

see the original item page
in the repository's web site and access all digital files if the item*



Πολυτροπική κατανόηση βίντεο με τεχνικές ασθενώς επιβλεπόμενης μάθησης (EL)
Multimodal video understanding using weakly supervised learning techniques (EN)

Μπουρίτσας, Γιώργος (EL)
Bouritsas, Giorgos (EN)

ntua (EL)
Μαραγκός, Πέτρος (EL)
Τζαφέστας, Κωνσταντίνος (EL)
Ποταμιάνος, Γεράσιμος (EL)

bachelorThesis

2017-07-18
2017-10-30
2017-10-30T12:17:35Z


Στην παρούσα διπλωματική αντιμετωπίζουμε το πρόβλημα της αυτόματης κατανόησης βίντεο χρησιμοποιώντας κειμενικούς υπαινιγμούς ως μορφές ασθενούς επίβλεψης. Συγκεκριμένα, αν και υπάρχει μεγάλος όγκος βίντεο που συνοδεύονται από περιγραφικό κείμενο, δεν είναι πάντα εύκολο να αξιοποιηθεί η επίβλεψη που μας παρέχει, λόγω της χωροχρονικής ανακρίβειας των περιγραφών, αλλά και της δυσκολίας στην κατανόηση της σημασιολογίας τους. Για κάθε κατηγορία οπτικών αντικειμένων υπό αναγνώριση, τα ερωτήματα που προκύπτουν είναι δύο: (i) Ποιο είναι το χωροχρονικό τμήμα του βίντεο στο οποίο αναφέρεται κάθε περιγραφή; (ii) Ποια είναι η ετικέτα που υπαινίσσεται κάθε περιγραφή; Απαντάμε στο πρώτο με Μάθηση Πολλαπλών Παραδειγμάτων και στο δεύτερο με Μάθηση Πιθανοτικών Ετικετών. Ακόμα, εισάγουμε την έννοια των Ασαφών Συνόλων Πολλαπλών Παραδειγμάτων για να μοντελοποιήσουμε τις διαφορετικές χρονικές επικαλύψεις μεταξύ των κειμενικών υπαινιγμών και των οπτικών αντικειμένων. Επίσης, εξερευνούμε τις δυνατότητες βελτίωσης της κατανόησης ενσωματώνοντας πληροφορία από άλλα υπό αναγνώριση οπτικά αντικείμενα και από τιςπροβλέψεις ενός προεκπαιδευμένου ταξινομητή. Τέλος, διατυπώνουμε μαθηματικά όλες αυτές τις μορφές ασθενούς επίβλεψης επεκτείνοντας έναν παλαιότερο φορμαλισμό διακριτικής ομαδοποίησης μέσω κυρτού προγραμματισμού. Οι πτυχές του βίντεο που επιχειρούνται να κατανοηθούν είναι οι ανθρώπινοι χαρακτήρες και οι δράσεις που εκτελούν, αν και η μοντελοποίηση δεν περιορίζεται σε αυτές. Αφού εντοπιστούν τα αντικείμενα αυτά στο βίντεο, αναπαρίστανται μέσω χαρακτηριστικών βαθιάς μάθησης. Για να εξάγουμε τις ασθενείς ετικέτες από το κείμενο καθορίζουμε εκ των προτέρων ένα σταθερό σύνολο για κάθε μία από τις 2 περιπτώσεις και στη συνέχεια χρησιμοποιούμε ταίριασμα κανονικών εκφράσεων για τους χαρακτήρες και υπολογισμό σημασιολογικής ομοιότητας για τις δράσεις. Αξιολογούμε τις μεθόδους μας, αφενός για την αναγνώριση προσώπου και για αφετέρου για την αναγνώριση δράσεων, σε ρεαλιστικά περιβάλλοντα και συγκεκριμένα σε 6 ταινίες της νεοεισαχθείσας στη διεθνή βιβλιογραφία βάσης COGNIMUSE, συνοδευόμενες από τα σενάρια και τους υπότιτλούς τους. (EL)
In this thesis we address the problem of automatic video understanding using textual cues as forms of weak supervision. Specifically, despite the fact that a huge amount of video data accompanied by a descriptive text are available, it is not always easy to exploit the supervision the text provides. The reason is the spatio-temporal imprecision of the descriptions, as well as the adversity to understand their semantics The questions that are raised for each category of visual objects are the following: (i) To which spatio-temporal video region does each textual description refer? (ii) Which label is implied by each textual description? We address the former as a Multiple Instance Learning problem and the latter as a Probabilistic Label Learning one. We also introduce the concept of Fuzzy Multiple Instance Sets to model the variations in the temporal overlap between the textual cues and the visual objects. In addition, we explore the capabilities of improvement of the understanding procedure incorporating information created by the recognition of other categories of visual objects, as well as the prediction of a pre-trained classifier. All this forms of weak supervision are formulated using a discriminative clustering framework which is optimized with a convex relaxation. The video content that we wish to retrieve comprises the human characters and the actions they perform. After detecting the objects in the video sequence, we represent them in a feature space using deep learning architectures. To extract the weak labels from the text we define the label set beforehand and then we apply either regular expression matching (concerning the characters) or semantic similarity calculation (concerning the actions). We validate our methods, with respect to the characters and the actions, in the challenging and realistic setting of 6 movies of the newly introduced database COGNIMUSE, accompanied by their scripts and subtitles. (EN)


Μάθηση πολλαπλών παραδειγμάτων (EL)
Διακριτική ομαδοποίηση (EL)
Σημασιολογία κειμένου (EL)
Κυρτός προγραμματισμός (EL)
Ασθενώς επιβλεπόμενη μάθηση (EL)
Αναγνώριση δράσεων (EL)
Πολυτροπική κατανόηση γεγονότων (EL)
Πιθανοτικές ετικέτες (EL)
Αναγνώριση προσώπου (EL)
Ασαφή σύνολα (EL)
Αυτόματη κατανόηση βίντεο (EL)
Σημασιολογική ομοιότητα (EL)
Action recognition (EN)
Fuzzy sets (EN)
Face recognition (EN)
Multimodal event understanding (EN)
Weakly supervised learning (EN)
Discriminative clustering (EN)
Text semantics (EN)
Semantic similarity (EN)
Multiple instance learning (EN)
Convex programming (EN)
Automatic video understanding (EN)
Probabilistic labels (EN)

Greek
English

Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Σημάτων, Ελέγχου και Ρομποτικής. Εργαστήριο Όρασης Υπολογιστών, Επικοινωνίας Λόγου και Επεξεργασίας Σημάτων (EL)

Αναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 3.0 Ελλάδα
http://creativecommons.org/licenses/by-nc-nd/3.0/gr/




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)