Μείωση διαστάσεων χώρου βελτιστοποίησης για την αποδοτική παρακολούθηση του ανθρώπινου χεριού και την εκτίμηση και αναγνώριση της στάσης του

 
This item is provided by the institution :

Repository :
E-Locus Institutional Repository
see the original item page
in the repository's web site and access all digital files if the item*
share




2013 (EN)

Dimensionality reduction for e cient hand tracking, pose estimation and classi cation
Μείωση διαστάσεων χώρου βελτιστοποίησης για την αποδοτική παρακολούθηση του ανθρώπινου χεριού και την εκτίμηση και αναγνώριση της στάσης του

Δουβαντζής, Πέτρος Σωτήριος

Τραχανιάς, Πάνος
Τσαμαρδινός, Ιωάννης
Αργυρός , Αντώνης

Η ανάκτηση και παρακολούθηση της πόζας αρθρωτών αντικειμένων με βάση οπτική πληροφορία αποτελεί ένα δύσκολο πρόβλημα με έντονο θεωρητικό ενδιαφέρον. Μία εκδοχή του προβλήματος αποτελεί η ανάκτηση της στάσης του ανθρώπινου χεριού η οποία βρίσκει εφαρμογή στην επικοινωνία ανθρώπου-μηχανής, σε εκμάθηση δραστηριοτήτων ρομπότ βάση παρακολούθησης, στην ανάλυση της κίνησης του ανθρώπινου χεριού κλπ. Το πρόβλημα εμπεριέχει αρκετές δυσκολίες όπως η υψηλή διαστατικότητα, οι έντονες επικαλύψεις μεταξύ τμημάτων του χεριού, οι πιθανά γρήγορες κινήσεις του χεριού, το γεγονός ότι η παρατήρηση του χεριού μπορεί να γίνεται σε μη ελεγχόμενα περιβάλλοντα κλπ. Πολλά από αυτά μπορούν να αντιμετωπιστούν χρησιμοποιώντας ειδικό εξοπλισμό καταγραφής κίνησης ή οπτικά βοηθήματα/σημάδια. Ωστόσο, αυτές οι προσεγγίσεις είναι παρεμβατικές ή/και απαιτούν ακριβό εξοπλισμό. Η εργασία αυτή βασίζεται σε μία υπάρχουσα μέθοδο ανάκτησης και παρακολούθησης της 3Δ θέσης, του προσανατολισμού και της κινηματικής (20 βαθμοί ελευθερίας) του ανθρώπινου χεριού χρησιμοποιώντας μη προσημειωμένες οπτικές παρατηρήσεις από μία RGB-D κάμερα. Στη βασική αυτή μέθοδο, η ανάκτηση της πόζας του χεριού διαμορφώνεται ως ένα πρόβλημα βελτιστοποίησης όπου αναζητούνται οι παράμετροι του μοντέλου του χεριού που ελαχιστοποιούν την ασυμφωνία ανάμεσα στην όψη υποτιθέμενων στάσεων του χεριού και στην πραγματική του εικόνα. Την επίλυση του προβλήματος αναλαμβάνει μία εκδοχή του Βελτιστοποιητή Σμήνους Σωματιδίων (Particle Swarm Optimization, PSO), ο οποίος σαρώνει τον παραμετρικό χώρο πιθανών καταστάσεων του χεριού. Ο υψηλός αριθμός διαστάσεων αυτού του χώρου επηρεάζει τις υπολογιστικές επιδόσεις της μεθόδου. Πιο συγκεκριμένα, επιτυγχάνονται υπολογιστικές επιδόσεις της τάξης των 20 καρέ/δευτερόλεπτο, κυρίως όμως λόγω της βελτιστοποιημένης υλοποίησης στον επεξεργαστή γραφικών (GPU) ενός υπολογιστή υψηλών προδιαγραφών. Περεταίρω μελέτη του προβλήματος αποκαλύπτει ότι ο παραμετρικός χώρος των καταστάσεων του χεριού είναι πλεονάζων σε μεγάλο βαθμό. Για παράδειγμα, μπορεί να αναπαραστήσει πόζες οι οποίες λόγω της φυσιολογίας του χεριού δεν είναι εφικτές. Επίσης, για συγκεκριμένες δραστηριότητες (π.χ. νοηματική γλώσσα, λαβή αντικειμένων, κλπ), ο χώρος των στάσεων που το χέρι μπορεί να πάρει γίνεται ακόμα μικρότερος. Σε αυτή την εργασία, χρησιμοποιούμε Ανάλυση Κύριων Συνιστωσών (Principal Components Analyis, PCA) για τη δημιουργία ενός χώρου μειωμένης διαστατικότητας ο οποίος περιγράφει με πιο συμπαγή τρόπο την αρθρωτή κίνηση του ανθρώπινου χεριού, μοντελοποιώντας εμμέσως σχετικούς περιορισμούς. Έτσι, ο PSO αρκεί να εφαρμοστεί σε ένα σημαντικά μικρότερο χώρο αναζήτησης, απαιτώντας μικρότερο υπολογιστικό κόστος για την εύρεση της βέλτιστης πόζας. Διάφορες παραλλαγές της προτεινόμενης μεθοδολογίας διαμορφώνονται για τα προβλήματα της ανάκτηση πόζας, παρακολούθηση πόζας και κατηγοριοποίηση πόζας. Μέσω εκτενών πειραματικών αποτελεσμάτων γίνεται μελέτη των συσχετίσεων ανάμεσα στην ακρίβεια της προτεινόμενης μεθόδου, τον αριθμό των διαστάσεων του χώρου αναζήτησης και των υπολογιστικών πόρων που χρειάζονται για την επίλυση των προβλημάτων της ανάκτησης πόζας, παρακολούθησης πόζας και κατηγοριοποίησης πόζας. Τα αποτελέσματα που προέκυψαν δείχνουν ότι η προτεινόμενη μέθοδος επιτυγχάνει μεγαλύτερη ακρίβεια στην εκτίμηση πόζας από ό,τι η βασική μέθοδος χρησιμοποιώντας μόλις το 1/4 των υπολογιστικών πόρων της τελευταίας. Επίσης, η μέθοδος κατηγοριοποιεί την πόζα του χεριού σε 10 κλάσεις χειρονομιών (Κινέζικοι αριθμοί) επιτυγχάνοντας ακρίβεια της τάξης 87% ως 100% ανάλογα με τους διατιθέμενους υπολογιστικούς πόρους. (EL)
Pose recovery and tracking of articulated objects based on visual observations is a theoretically interesting and challenging problem. One of its instances, human hand pose estimation, has a number of diverse applications including but not limited to human-computer interaction, robot learning by demonstration, human hand motion analysis etc. The problem is associated with many challenges that are introduced because of its high dimensionality, the severe hand self-occlusions, the potentially fast hand motions and the uncontrolled environments in which hands are observed. Some of these difficulties can be alleviated by employing specialized motion capture hardware or visual markers. However, such methods interfere with the observed scene and/or require a costly hardware setup. This work is built upon an existing model-based method that tracks and recovers the 3D position, orientation and 20 DOF articulation of a human hand from markerless visual observations obtained by an RGB-D sensor. According to this baseline method, hand pose estimation is formulated as an optimization problem, seeking for the hand model parameters that minimize the discrepancy between the appearance of hypothesized hand configurations and the actual hand observation. The optimization problem is handled by a variant of Particle Swarm Optimization (PSO), which searches the parametric space of hand configurations. The high dimensionality of this space affects the computational performance of this method. More specifically, a computational performance of 20 fps is achieved, but only thanks to an elaborate GPU implementation on a high end computer. A closer study of the problem reveals that the parametric space of hand configurations is highly redundant. For example, it can represent implausible hand poses. Additionally, when a human hand is known to be engaged in specific activities (e.g., grasping, sign language, etc), its configurations are known to lie in a much lower dimensional manifold. In this work, we employ Principal Component Analysis (PCA) to create a space of reduced dimensionality that describes effectively the human hand articulation, by implicitly modeling relevant constraints. By doing so one needs to solve a much simpler optimization problem, requiring less computational effort to find the optimal hand configuration. Multiple variants of the proposed methodology are formed for the problems of hand pose recovery, pose tracking and pose classification. Extensive experimental results study the relationships among the proposed method's accuracy, the dimensionality of the search space and the computational budget required to solve the pose recovery, tracking and classification problems. The obtained results demonstrate that the proposed approach achieves better accuracy in pose recovery compared to the baseline method using only 1/4 of the latter's computational budget. Moreover, the method classified hand postures into the 10 classes of the Chinese numbers signs with an accuracy of 87% to 100%, depending on the employed computational budget. (EN)

text
Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης

Kinect
Μείωση διαστάσεων
Dimensionality Reduction
Model Based
Αναγνώριση χεριού
Top-Down
Vision
Εκτίμηση πόζας
Hand Tracking
Οραση
Pose Estimation


English

2013-03-15


Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)