Evaluating design options of Bag-of Visual-Words based methods for action classification

 
This item is provided by the institution :
University of Crete
Repository :
E-Locus Institutional Repository
see the original item page
in the repository's web site and access all digital files if the item*
share



2017 (EN)
Αξιολόγηση σχεδιαστικών επιλογών μεθόδων βασιζόμενων σε συλλογή οπτικών λέξεων για την κατηγοριοποίηση ανθρώπινων δραστηριοτήτων
Evaluating design options of Bag-of Visual-Words based methods for action classification

Μανουσάκη, Βικτωρία Ε.

Ζαμπούλης, Ξενοφών
Αργυρός, Αντώνης
Στεφανίδης, Κωνσταντίνος

Τα τελευταία χρόνια, τα προβλήματα της ανάλυσης και της κατηγοριοποίησης / αναγνώρισης των ανθρώπινων δράσεων με βάση οπτική πληροφορία έχουν προσελκύσει μεγάλο ερευνητικό ενδιαφέρον εξαιτίας της σημασίας της επίλυσής τους σε τομείς όπως η υποβοηθούμενη διαβίωση, η επιτήρηση χώρων, η αλληλεπίδραση ανθρώπου-υπολογιστή/ρομπότ, κλπ. Παρά τη σημαντική πρόοδο που έχει επιτευχθεί, η κατηγοριοποίηση και η αναγνώριση των ανθρώπινων δράσεων παραμένει ένα δύσκολο πρόβλημα που δεν έχει επιλυθεί στη γενικότητά του. Σε αυτή την εργασία, μας ενδιαφέρει η κατηγοριοποίηση ανθρώπινων δράσεων με βάση 3Δ σκελετικά δεδομένα και βασιζόμαστε στη μέθοδο της Συλλογής Οπτικών Λέξεων-ΣΟΛ (Bags of Visual Words-BoVWs) που αποτελεί ένα αρκετά επιτυχημένο πλαίσιο κωδικοποίησης χαρακτηριστικών για την επίλυση αυτού του προβλήματος. Ακολουθούμε ένα σχήμα κατηγοριοποίησης δράσεων που αποτελείται από τρία βασικά βήματα: (α) εξαγωγή χαρακτηριστικών, (β) αναπαράσταση / κωδικοποίηση βασισμένη σε συλλογή κωδικοποιημένων οπτικών χαρακτηριστικών και (γ) κατηγοριοποίηση των παραστάσεων δράσης που προκύπτουν. Σε αυτή τη μελέτη, ο στόχος μας είναι να παρέχουμε μια πειραματική αξιολόγηση διαφόρων σχεδιαστικών επιλογών για τα παραπάνω βήματα, οι οποίες, εφόσον προσδιοριστούν, οδηγούν σε συγκεκριμένες και διαφορετικές μεθόδους κατηγοριοποίησης δράσεων. Σε αυτή την κατεύθυνση, οι συνεισφορές αυτής της εργασίας είναι πολλές. Αρχικά, ερευνούμε την απόδοση τριών υφιστάμενων τύπων 3Δ σκελετικών χαρακτηριστικών. Προτείνουμε επίσης ένα νέο χαρακτηριστικό για την αναπαράσταση της 3Δ στάσης του ανθρώπινου σώματος που εμπνέεται από υφιστάμενη έρευνα σε Ιστογράμματα Ορίου Κίνησης-ΙΟΚ (Motion Boundary Histograms–MBH). Η χρήση του προτεινόμενου χαρακτηριστικού φαίνεται να παράγει αποτελέσματα που είναι ανταγωνιστικά με αυτά των κορυφαίων υφιστάμενων ανταγωνιστικών μεθόδων. Εξετάζουμε τρεις διαφορετικές μεθόδους κατηγοριοποίησης (Κ-Κοντινότεροι Γείτονες-ΚΚΓ, Μηχανές Διανυσμάτων Υποστήριξης - ΜΔΥ, Νευρωνικό Δίκτυο Συνάρτησης Ακτινικής Βάσης - ΝΔΣΑΒ). Διερευνούμε επίσης το μέγεθος της συλλογής κωδικών που χρησιμοποιείται για την αναπαράσταση δράσεων, το οποίο αποτελεί σημαντική σχεδιαστική επιλογή σε μεθόδους που βασίζονται σε ΣΟΛ. Για να επιτευχθεί αυτό, βασιζόμαστε σε μια εμπειρική, σχεδόν εξαντλητική μελέτη για να καθορίσουμε το καλύτερο μέγεθος συλλογής κωδίκων για κάθε τύπο χαρακτηριστικού και μεθόδου κατηγοριοποίησης. Οι περισσότερες υφιστάμενες εργασίες ορίζουν ένα συγκεκριμένο μέγεθος συλλογής κωδικών χωρίς να παρέχουν λεπτομέρειες για το πώς αυτό αποφασίζεται. Αντιθέτως, εμείς διερευνούμε μεθόδους που καθορίζουν αυτόματα το μέγεθος της συλλογής. Τα αποτελέσματα της διερεύνησης δείχνουν ότι η μέθοδος Διάδοσης Συνάφειας (Affinity Propagation), μια τεχνική μη επιτηρούμενης ομαδοποίησης που καθορίζει αυτόματα τον αριθμό των συστάδων σε ένα σύνολο δεδομένων, μπορεί να χρησιμοποιηθεί αποτελεσματικά ως αντικατάσταση του αλγόριθμου K-μέσων (k-Means) που χρησιμοποιείται στις περισσότερες από τις μεθόδους κατηγοριοποίησης που βασίζονται σε ΣΟΛ. Επιπρόσθετα, διερευνάμε εναλλακτικές προσεγγίσεις κωδικοποίησης χαρακτηριστικών όπως οι Συλλογή Χρονικών Λέξεων - ΣΧΛ (Bag of Temporal Words-BoTW) και τα Διανύσματα Τοπικά Συσσωρευμένων Περιγραφών -ΔΤΣΠ (Vector of Locally Aggregated Descriptors-VLAD). Τα αποτελέσματα που προκύπτουν δείχνουν ότι η σχετικά απλούστερη κωδικοποίηση ΣΟΛ υπερέχει έναντι αυτών των πολυπλοκότερων επιλογών. Όλες οι επιλογές σχεδιασμού μεθόδων ταξινόμησης δράσεων αξιολογήθηκαν βάσει μιας σειράς πειραμάτων που πραγματοποιήθηκαν στο ευρέως χρησιμοποιούμενο σύνολο δεδομένων κίνησης και ανθρώπινων δραστηριοτήτων Berkeley MHAD. Τo σύνολο δεδομένων MHAD είναι επισημειωμένο με τις ορθές κατηγορίες ανθρώπινων δράσεων, γεγονός που επιτρέπει την ποσοτική αποτίμηση των σχετικών αυτοματοποιημένων μεθόδων κατηγοριοποίησης. (EL)
In recent years, the problems of vision-based human motion analysis and action classification/recognition have attracted a lot of attention due to the significance of their solution in domains such as assisted living, surveillance, humancomputer/ robot interaction, etc. Despite several breakthroughs, human action recognition remains a challenging problem that is unsolved in its generality. In this work, we are interested in action classification based on motion capture/ skeletal data and we rely on the Bags of Visual Words (BoVWs) features encoding. We follow an action classification framework consisting of three main steps: (a) feature extraction, (b) representation/encoding based on a BoVWs codebook and (c) classification of the resulting action representations. In this study, our goal is to provide an experimental evaluation of various options regarding the selection of the components of this framework that, when instantiated, give rise to a specificaction classification method. In that direction, the contributions of this work are manyfold. First, we investigate the performance of three existing types of 3D skeletal features. We also propose a new feature for representing human 3D pose data that is inspired by the work on Motion Boundary Histograms (MBH). The use of the proposed feature is shown to produce results that are competitive to the state of the art. We explore three different classification methods (K-Nearest Neighbors, Support Vector Machines, Radial Basis Function Neural Networks). We also investigate the size of the codebook used to represent actions, which is a major design issue in BoVW-based methods. To achieve this, we perform an empirical, almost exhaustive study to determine the best codebook size for each feature type and classifier. Most of the previous works define a specific codebook size without providing details on how this has been decided. In contrast, we explore methods that determine automatically the codebook size. This investigation shows that Afinity Propagation, an unsupervised clustering technique that determines automatically the number of clusters in a dataset, can be used effectively as a replacement of the k-Means algorithm which is used in most of the BoVW-based recognition methods. Additionally, we explore feature encoding alternatives to BoWs such as the Bag of Temporal Words (BoTW) and the Vector of Locally Aggregated Descriptors (VLAD). The obtained results show that the simple BoVW encoding outperforms these more complicated choices. All methods and action classification design choices have been evaluated quantitatively based on a series of experiments that have been carried out on the standard, extensive and ground truth-annotated Berkeley MHAD dataset. (EN)

text

VLAD
MBH
RBFNN
KNN
SVM

Πανεπιστήμιο Κρήτης (EL)
University of Crete (EN)

2017-11-24




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)