Τεχνικές υπολογιστικής όρασης και μηχανικής μάθησης για την παρακολούθηση και ταξινόμηση ανθρωποκεντρικών δεδομένων

 
Το τεκμήριο παρέχεται από τον φορέα :

Αποθετήριο :
Εθνικό Αρχείο Διδακτορικών Διατριβών
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2014 (EL)
Computer vision and machine learning techniques for tracking and classifying anthropocentric data
Τεχνικές υπολογιστικής όρασης και μηχανικής μάθησης για την παρακολούθηση και ταξινόμηση ανθρωποκεντρικών δεδομένων

Ζωίδη, Όλγα
Zoidi, Olga

Το αντικείμενο που πραγματεύεται η παρούσα διατριβή είναι η σημασιολογική ανάλυση δεδομένων εικονοσειρών με χρήση μόνο οπτικής πληροφορίας. Πιο συγκεκριμένα, η σημασιολογική πληροφορία που εξάγεται αναφέρεται στην κίνηση των αντικειμένων της εικονοσειράς, μέσω της παρακολούθησης της θέσης τους και στην απόδοση σημασιολογικών ετικετών μέσω ταξινόμησης. Για το πρόβλημα της παρακολούθησης αντικειμένων αναπτύχθηκαν δύο αλγόριθμοι παρακολούθησης που βασίζονται αποκλειστικά στην οπτική πληροφορία της εικονοσειράς. Ο πρώτος αλγόριθμος παρακολούθησης εκτελεί παρακολούθηση της τροχιάς εντός αντικειμένου, εξάγοντας ένα μοντέλο για το παρουσιαστικό του αντικειμένου βάση ιστογραμμάτων χρώματος και περιγραφέων υφής τοπικών στρεφόμενων πυρήνων. Ο δεύτερος αλγόριθμος παρακολούθησης αποτελεί επέκταση του πρώτου, ώστε να εφαρμόζεται σε στερεοσκοπικές εικονοσειρές. Ο στερεοσκοπικός αλγόριθμος παρακολούθησης εκμεταλλεύεται πλήρως την επιπλέον πληροφορία που προέρχεται από την στερεοσκοπική γεωμετρία, ήτοι την στερεοσκοπική ανομοιότητα. Τα αποτελέσματα της παρακολούθησης της θέσης των αντικειμένων μπορούν να χρησιμοποιηθούν από τους αλγορίθμους ταξινόμησης με δύο τρόπους: στην δημιουργία του συνόλου δεδομένων στα οποία θα εφαρμοστεί η ταξινόμηση και στην εκμετάλλευση της σημασιολογικής πληροφορίας των τροχιών των αντικειμένων για την βελτίωση της επίδοσης ταξινόμησης. Στα πλαίσια της παρούσας διατριβής δημιουργήθηκαν δύο αλγόριθμοι ταξινόμησης. Ο πρώτος αλγόριθμος, ο οποίος ανήκει στην κατηγορία αλγορίθμων εκμάθησης με επίβλεψη, εκτελεί μείωση διάστασης και ταξινόμηση των αντικειμένων σε ένα ενιαίο βήμα. Διαισθητικά, ο αλγόριθμος ψάχνει την βέλτιστη αναπαράσταση των δεδομένων ούτως ώστε να μεγιστοποιείται η ακρίβεια ταξινόμησης. Ο δεύτερος αλγόριθμος, ο οποίος ανήκει στην κατηγορία αλγορίθμων εκμάθησης μερικής επίβλεψης, εκτελεί διάδοση ετικετών σε δεδομένα με πολλές αναπαραστάσεις, εκμεταλλευόμενος την πληροφορία των τροχιών των δεδομένων. Οι αλγόριθμοι που αναπτύχθηκαν εφαρμόστηκαν στα προβλήματα της αναγνώρισης ανθρώπων, ανθρώπινων εκφράσεων προσώπου και ανθρώπινων κινήσεων.
This PhD focuses on video content semantic analysis with the use of visual information obtained from the video. More specifically, the extracted semantic descriptions refer to object movement, through tracking and annotation, through classification. In order to tackle the problem of object tracking, two tracking algorithms were implemented, based exclusively on the visual information obtained from the video. The first tracker creates an object appearance model, based on color histograms and local steering kernel texture descriptors. The second tracker extends the first tracking algorithm so that it operates on stereo video sequences. The stereo tracker exploits fully the stereo geometry information, i.e., disparity information. The tracking results can be employed from the classification algorithms in two ways: in the creation of the data set on which classification will be performed and in the exploitation of the semantic information that lies in the object trajectories for increasing the classification performance. Two classification algorithms have been developed. The first one, that belongs to the supervised learning framework, performs dimensionality reduction and classification in a single step. Intuitively, the algorithm searches for the data representation that achieves the highest classification performance. The second algorithm, that belongs to the semi-supervised learning framework, performs label propagation on data with multiple representations, exploiting the data trajectory information. The developed algorithms have been performed on person recognition, facial expression recognition and human action recognition.

Machine learning techniques
Computer vision and image processing
Μηχανική μάθηση
Ανθρωποκεντρικοί υπολογιστές
Pattern recognition techniques
Υπολογιστική όραση
Αναγνώριση προτύπων
Αnthropocentric computers

Εθνικό Κέντρο Τεκμηρίωσης (ΕΚΤ) (EL)
National Documentation Centre (EKT) (EN)

Ελληνική γλώσσα

2014


Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ)
Aristotle University Of Thessaloniki (AUTH)



*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.