This item is provided by the institution :
National Documentation Centre (EKT)   

Repository :
National Archive of PhD Theses  | ΕΚΤ NA.Ph.D.   

see the original item page
in the repository's web site and access all digital files if the item*



Ανάκτηση και κατηγοριοποίηση πολυμεσικών αντικειμένων
Multimedia object classification and retrieval

Stathopoulos, Spyridon
Σταθόπουλος, Σπυρίδωνας

PhD Thesis

2018


Η παρούσα διατριβή ερευνά το πρόβλημα της ανάκτησης και κατηγοριοποίησης πολυμεσικού περιεχομένου. Στο πρώτο μέρος γίνεται μία διερεύνηση της εφαρμογής Λανθάνουσας Σημασιολογικής Ανάλυσης για ανάκτηση εικόνας σε συλλογές μεγάλης κλίμακας (LSA). Παρουσιάζεται μία αποτελεσματική προσέγγιση για την εφαρμογή LSA η οποία παρακάμπτει την Ανάλυση Ιδιαζουσών Τιμών (SVD) στον πίνακα χαρακτηριστικών, ξεπερνώντας με αυτόν τον τρόπο το πρόβλημα της εφαρμογής της μεθόδου σε σύνολα δεδομένων μεγάλης κλίμακας. Στη μελέτη αυτή διερευνάται ο συνδυασμός διαφορετικών αναπαραστάσεων εικόνας είτε σε πρώιμο στάδιο (Early fusion) είτε σε μεταγενέστερο (Late fusion) με στόχο την αποτελεσματικότερη ανάκτηση εικόνας. Επιπλέον, προτείνεται μία συνάρτηση πυρήνα (Kernel function) βασισμένη στην LSA η οποία συσχετίζει χαρακτηριστικά από διαφορετικές πηγές σε ένα κοινό λανθάνοντα χώρο. Η προτεινόμενη προσέγγιση συνδυάζει την ταξινόμηση με την ανάκτηση, αναπαριστώντας τις εικόνες με ένα σύνθετο διάνυσμα ενσωματώνοντας την πληροφορία που προκύπτει από την κατηγοριοποίηση. Τα πειραματικά αποτελέσματα δείχνουν ότι υπερέχει της λανθάνουσας ευρετηρίασης που προκύπτει από την εφαρμογή SVD.Για την αναπαράσταση εικόνων, προτείνεται μια γενίκευση του μοντέλου Bag-of-Colors (BoC). Ο νέος αλγόριθμος, που αναφέρεται ως QBoC, βασίζεται στην αποσύνθεση των εικόνων σε ένα δέντρο από τεταρτημόρια κωδικοποιώντας με αυτόν τον τρόπο χωρικές πληροφορίες στην τελική απεικόνιση της εικόνας. Σε συνδυασμό με το μοντέλο Bag-of-Visual-Words (BoVW) χρησιμοποιείται για την αποτελεσματική κατηγοριοποίηση ιατρικών εικόνων.Τέλος, παρουσιάζεται μια νέα προσέγγιση για το συνδυασμό του LSA με Νευρωνικά Δίκτυα Συνέλιξης (CNNs) για την ταξινόμηση εικόνων βάση περιεχομένου. Για το σκοπό αυτό, κατασκευάζεται ένας βελτιστοποιημένος λανθάνων σημασιολογικός χώρος που καταγράφει τη συσχέτιση των εικόνων σε κάθε κατηγορία χρησιμοποιώντας ένα προ-εκπαιδευμένο νευρωνικό δίκτυο.Τα χαρακτηριστικά των εικόνων προβάλλονται μέσο ενός σταθμισμένου Latent Semantic Tensor σε ένα χαμηλότερο χώρο και χρησιμοποιούνται για να εκπαιδεύσουν ένα CNN που πραγματοποιεί την τελική ταξινόμηση. Τα πειραματικά αποτελέσματα καταδεικνύουν την αποτελεσματικότητα αυτής της προσέγγισης σε ότι αφορά την ακρίβεια της ταξινόμησης, επιτυγχάνοντας συγκρίσιμα αποτελέσματα με αντίστοιχες σύγχρονες προσεγγίσεις.
In this thesis the problem of multimedia object classification and retrieval is studied. The first part examines the application of Latent Semantic Analysis to large scale image retrieval. An effective and efficient approach of applying LSA is presented skipping the SVD solution of the feature matrix and overcoming in this way the deficiencies of the method with large scale datasets. The study demonstrates that early fusion of several composite descriptors with visual words increase retrieval effectiveness. It also combines well with late fusion for mixed (textual and visual) ad hoc and modality classification. The results reported are comparable to state of the art algorithms. In addition, we propose an LSA based kernel function which effectively integrates low-level visual features with higher semantic ones into a common latent space that correlates multi-modal features (features from different sources) in the same latent space. The proposed approach also effectively incorporates classification with image retrieval in an early fusion manner. Experimental results show that it outperforms the latent indexing generated by singular value decomposition.In terms of image representation, a generalization of the Bag-of-Colors (BoC) model is proposed. The new algorithm, referred to as QBoC, is based on a quad tree decomposition of images and manages to efficiently encode spatial information in the final image representation. Combined with the Bag-of-Visual-Words (BoVW) model it is used to efficiently identify the modality detection of images in the medical domain. Finally, a novel approach for combining LSA with Deep Convolutional Neural Networks (CNN) for image classification is presented. In particular, the potential of Neural Networks when images are represented by compact descriptors is investigated. To this end, an optimized latent semantic space is constructed that captures the affinity of images to each modality using a pre-trained network. The images are represented by a Weighted Latent Semantic Tensor in a lower space and they are used to train a deep CNN that makes the final classification. Experimental results demonstrate the effectiveness and the efficiency of our framework in terms of classification accuracy, achieving comparable results to current state-of-the-art approaches.

Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική

Computer and Information Sciences
Φυσικές Επιστήμες
Αναπράσταση εικόνας
Λανθάνουσα σημασιολογική ανάλυση
Content - based image retrieval
Image representation
Κατηγοριοποίηση εικόνας
Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Natural Sciences
Ανάκτηση εικόνας
Συνελικτικά νευρωνικά δίκτυα
Latent semantic analysis
Image classification

English

Athens University Economics and Business (AUEB)
Οικονομικό Πανεπιστήμιο Αθηνών

Οικονομικό Πανεπιστήμιο Αθηνών. Σχολή Επιστημών και Τεχνολογίας της Πληροφορίας. Τμήμα Πληροφορικής




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)