Συμπιεστική κατηγοριοποίηση βίντεο για συστήματα απόφασης περιορισμένων πόρων
Compressive video classification for decision systems with limited resources
Χαραλαμπίδης, Παύλος
Τσακαλίδης, Παναγιώτης
Εξαιτίας της έλευσης της ψηφιακής τηλεόρασης και της διαθεσιμότητας μεγάλων βάσεων δεδομένων βίντεο η αυτόματη κατηγοριοποίηση βίντεο έχει γίνει αντικείμενο ερευνητικής μελέτης. Ο στόχος της κατηγοριοποίησης βίντεο είναι η αντιστοίχηση μίας ακολουθίας σε μία κλάση ανάμεσα σε ένα προκαθορισμένο σύνολο κλάσεων. Συνήθως δεδομένα πλήρους ανάλυσης απαιτούνται για την εξαγωγή των κατάλληλων χαρακτηριστικών. Παρ' όλα αυτά, στην περίπτωση συστημάτων περιορισμένων πόρων, όπως αυτά σε εφαρμογές βιντεοπαρακολούθησης ή τηλεπισκόπησης αυτή η επεξεργασία μπορεί να αποδειχθεί υπολογιστικά και ενεργειακά απαιτητική επιβαρύνοντας ιδιαίτερα την πλευρά του κωδικοποιητή. Επιπλέον, μεγάλο εύρος ζώνης απαιτείται για την αποστολή των δεδομένων πλήρους ανάλυσης σε ένα σταθμό βάσης για επιπλέον επεξεργασία.
Στην παρούσα εργασία αντιμετωπίζουμε τα προαναφερθέντα προβλήματα εντός του πλαισίου της συμπιεστικής δειγματοληψίας. Η συμπιεστική δειγματοληψία λειτουργώντας ταυτόχρονα ως πρωτόκολλο δειγματοληψίας και συμπίεσης επιτρέπει την αποδοτική αναπαράσταση και ανακατασκευή ενός αραιού σήματος από ένα σύνολο μη-προσαρμοσμένων γραμμικών μετρήσεων πολύ λιγότερων από αυτές που προβλέπει το θεώρημα του Nyquist. Στη συγκεκριμένη περίπτωση αξιοποιούμε τις ιδιότητες των γραμμικών τυχαίων προβολών στο πρόβλημα της κατηγοριοποίησης βίντεο χωρίς τη διαχείριση των αρχικών δεδομένων υψηλής ανάλυσης. Συγκεκριμένα παρουσιάζουμε δύο συστήματα συμπιεστικής κατηγοριοποίησης βίντεο τα οποία δουλεύουν απ' ευθείας στα συμπιεσμένα δεδομένα. Θεωρούμε την περίπτωση ενός συστήματος που διαθέτει μία κάμερα ενός pixel η οποία μπορεί να καταγράψει συμπιεστικά δείγματα στο οπτικό πεδίο.
Στο πρώτο σύστημα τα συμπιεστικά δειγματοληπτημένα καρέ χρησιμοποιούνται κατ' ευθείαν ως χαρακτηριστικά σε συνδυασμό με έναν κατάλληλο κανόνα απόφασης για την κατηγοριοποίηση μιας άγνωστης ακολουθίας. Στο δεύτερο σύστημα χρησιμοποιείται ένα μοντέλο συμπιεστικής δειγματοληψίας σε μπλοκ του καρέ μαζί με εκμάθηση λεξικού και έναν ταξινομητή Μηχανής Εδραίων Διανυσμάτων (SVM) με συνάρτηση πυρήνα χωροχρονικής πυραμίδας για τη φάση της ταξινόμησης. Οι προτεινόμενες μέθοδοι αξιολογούνται χρησιμοποιώντας ένα υποσύνολο της βάσης αναγνώρισης δραστηριότητας UCF50. Τα αποτελέσματα επιβεβαιώνουν την αποδοτικότητα των συστημάτων και δείχνουν ότι χαρακτηριστικά που βασίζονται στις συμπιεστικές μετρήσεις σε συνδυασμό με κατάλληλους κανόνες απόφασης οδηγούν σε αποδοτικό σχήμα κατηγοριοποίησης, το οποίο πληροί τους περιορισμούς των συστημάτων περιορισμένων πόρων. Επιπλέον, από τη σύγκριση με ένα συμβατικό σύστημα κατηγοριοποίησης βίντεο που αξιοποιεί τα δεδομένα πλήρους ανάλυσης φαίνεται ότι παρά τη χρήση ενός μικρού μόνο ποσοστού των αρχικών δεδομένων στα συστήματα συμπιεστικής κατηγοριοποίησης αυτό δεν προκαλεί σημαντική μείωση στην απόδοση.
(EL)
Due to the advent of digital TV and the availability of large video databases the task
of automatic video classification has received a great research interest. The objective
of video classification is to label a video sequence with its corresponding class, among
a predefined set of classes. Typically, full resolution video data is required for the
extraction of appropriate features. However, under the case of limited-resource sensing
systems, which happens in applications like video surveillance and remote sensing such processing can be computationally and power demanding placing significant burden
on the encoder's side. Additionally, a large bandwidth is required to transmit full-resolution data at a base station for further processing.
In this thesis we address the aforementioned problems by exploiting the framework
of compressive sensing. Compressive sensing acting simultaneously as a sampling and
compression protocol enables the efficient representation and reconstruction of a sparse
signal from a set of non-adaptive linear incoherent measurements much fewer than
what is described by the Nyquist theorem. Here, we exploit the properties of linear
random projections for addressing the problem of video classification without handling
the original high-resolution data. In particular, we introduce two compressive video
classification systems that work directly in the compressed domain. We assume the
scenario of a video classification system equipped with a single-pixel camera that can
directly acquire compressive samples in the optical domain.
In the first system the compressively sampled frames are directly used as features
along with an appropriate decision rule to classify a query sequence. In the second
system a block-based compressive acquisition model is used together with dictionary
learning, and a support vector machine (SVM) with a spatio-temporal pyramid matching kernel for the classification phase. The proposed methods are evaluated using a
subset of the UCF50 activity recognition dataset. The results verify the efficiency of
the proposed video classification systems and illustrate that features based on compressive measurements, in conjunction with an appropriate decision rule, results in an effective video classification scheme, which meets the constraints of systems with limited
resources. In addition, the comparison with a conventional video classification scheme
that exploits the full-resolution video data illustrates that, although only a small per-
centage of the original data is used in the compressive video classification systems, no
significant degradation in performance is observed.
(EN)