Τεχνικές υπολογιστικής όρασης και μηχανικής μάθησης για την παρακολούθηση και ταξινόμηση ανθρωποκεντρικών δεδομένων

 
This item is provided by the institution :

Repository :
National Archive of PhD Theses
see the original item page
in the repository's web site and access all digital files if the item*
share



PhD thesis (EN)

2014 (EN)

Computer vision and machine learning techniques for tracking and classifying anthropocentric data
Τεχνικές υπολογιστικής όρασης και μηχανικής μάθησης για την παρακολούθηση και ταξινόμηση ανθρωποκεντρικών δεδομένων

Zoidi, Olga
Ζωίδη, Όλγα

Το αντικείμενο που πραγματεύεται η παρούσα διατριβή είναι η σημασιολογική ανάλυση δεδομένων εικονοσειρών με χρήση μόνο οπτικής πληροφορίας. Πιο συγκεκριμένα, η σημασιολογική πληροφορία που εξάγεται αναφέρεται στην κίνηση των αντικειμένων της εικονοσειράς, μέσω της παρακολούθησης της θέσης τους και στην απόδοση σημασιολογικών ετικετών μέσω ταξινόμησης. Για το πρόβλημα της παρακολούθησης αντικειμένων αναπτύχθηκαν δύο αλγόριθμοι παρακολούθησης που βασίζονται αποκλειστικά στην οπτική πληροφορία της εικονοσειράς. Ο πρώτος αλγόριθμος παρακολούθησης εκτελεί παρακολούθηση της τροχιάς εντός αντικειμένου, εξάγοντας ένα μοντέλο για το παρουσιαστικό του αντικειμένου βάση ιστογραμμάτων χρώματος και περιγραφέων υφής τοπικών στρεφόμενων πυρήνων. Ο δεύτερος αλγόριθμος παρακολούθησης αποτελεί επέκταση του πρώτου, ώστε να εφαρμόζεται σε στερεοσκοπικές εικονοσειρές. Ο στερεοσκοπικός αλγόριθμος παρακολούθησης εκμεταλλεύεται πλήρως την επιπλέον πληροφορία που προέρχεται από την στερεοσκοπική γεωμετρία, ήτοι την στερεοσκοπική ανομοιότητα. Τα αποτελέσματα της παρακολούθησης της θέσης των αντικειμένων μπορούν να χρησιμοποιηθούν από τους αλγορίθμους ταξινόμησης με δύο τρόπους: στην δημιουργία του συνόλου δεδομένων στα οποία θα εφαρμοστεί η ταξινόμηση και στην εκμετάλλευση της σημασιολογικής πληροφορίας των τροχιών των αντικειμένων για την βελτίωση της επίδοσης ταξινόμησης. Στα πλαίσια της παρούσας διατριβής δημιουργήθηκαν δύο αλγόριθμοι ταξινόμησης. Ο πρώτος αλγόριθμος, ο οποίος ανήκει στην κατηγορία αλγορίθμων εκμάθησης με επίβλεψη, εκτελεί μείωση διάστασης και ταξινόμηση των αντικειμένων σε ένα ενιαίο βήμα. Διαισθητικά, ο αλγόριθμος ψάχνει την βέλτιστη αναπαράσταση των δεδομένων ούτως ώστε να μεγιστοποιείται η ακρίβεια ταξινόμησης. Ο δεύτερος αλγόριθμος, ο οποίος ανήκει στην κατηγορία αλγορίθμων εκμάθησης μερικής επίβλεψης, εκτελεί διάδοση ετικετών σε δεδομένα με πολλές αναπαραστάσεις, εκμεταλλευόμενος την πληροφορία των τροχιών των δεδομένων. Οι αλγόριθμοι που αναπτύχθηκαν εφαρμόστηκαν στα προβλήματα της αναγνώρισης ανθρώπων, ανθρώπινων εκφράσεων προσώπου και ανθρώπινων κινήσεων.
This PhD focuses on video content semantic analysis with the use of visual information obtained from the video. More specifically, the extracted semantic descriptions refer to object movement, through tracking and annotation, through classification. In order to tackle the problem of object tracking, two tracking algorithms were implemented, based exclusively on the visual information obtained from the video. The first tracker creates an object appearance model, based on color histograms and local steering kernel texture descriptors. The second tracker extends the first tracking algorithm so that it operates on stereo video sequences. The stereo tracker exploits fully the stereo geometry information, i.e., disparity information. The tracking results can be employed from the classification algorithms in two ways: in the creation of the data set on which classification will be performed and in the exploitation of the semantic information that lies in the object trajectories for increasing the classification performance. Two classification algorithms have been developed. The first one, that belongs to the supervised learning framework, performs dimensionality reduction and classification in a single step. Intuitively, the algorithm searches for the data representation that achieves the highest classification performance. The second algorithm, that belongs to the semi-supervised learning framework, performs label propagation on data with multiple representations, exploiting the data trajectory information. The developed algorithms have been performed on person recognition, facial expression recognition and human action recognition.

PhD Thesis

Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Computer vision and image processing
Electrical Engineering, Electronic Engineering, Information Engineering
Ανθρωποκεντρικοί υπολογιστές
Computer and Information Sciences
Υπολογιστική όραση
Φυσικές Επιστήμες
Αναγνώριση προτύπων
Επιστήμες Μηχανικού και Τεχνολογία
Machine learning techniques
Engineering and Technology
Μηχανική μάθηση
Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Natural Sciences
Pattern recognition techniques
Αnthropocentric computers


Greek

2014


Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ)
Aristotle University Of Thessaloniki (AUTH)




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)