Content-Based Image Retrieval using Deep Learning

Content-Based Image Retrieval using Deep Learning

URI: https://www.openarchives.gr/aggregator-openarchives/edm/rep_ihu/000180-123456789_32760
RDF/XML JSON-LD

This item is provided by the institution :
International Hellenic University

Repository :
Institutional Repository of the International Hellenic University

see the original item page
in the repository's web site and access all digital files if the item^*

Title

Ανάκτηση Εικόνων με Βάση το Περιεχόμενο με χρήση Μεθόδων Βαθιάς Μάθησης (EL)

Content-Based Image Retrieval using Deep Learning (EN)

Creator

Καπλάνογλου, Παντελής Ι. (EL)

Contributor

Διαμαντάρας, Κωνσταντίνος (EL)

Type

masterThesis

Μεταπτυχιακή εργασία (EL)

Master thesis (EN)

Thesis
Master thesis (EN)

Issued

2024-10-07T13:49:21Z

2017-07-05

2021-12-23T15:01:11Z

Year

2017 (EN)

Description

Τα Βαθιά Συνελικτικά Νευρωνικά Δίκτυα (CNNs) έχουν δημιουργήσει νέες προοπτικές για την Υπολογιστική Όραση και πρόσφατα έχουν εφαρμοστεί στην Ανάκτηση Εικόνας με Βάση το Περιεχόμενο (CBIR). Μολαταύτα η εφαρμοσιμότητα τους στον πραγματικό κόσμο για αναγνώριση εικόνας στην Ρομποτική και Ιατρική Απεικόνιση είναι ακόμα ένα ανοικτό θέμα προς διερεύνηση. Επιπρόσθετες βελτιώσεις στην ακρίβεια σε συνδυασμό με μείωση του υπολογιστικού κόστους είναι τα βασικά προβλήματα που πρέπει να αντιμετωπίσουν οι μελλοντικές προτάσεις. Η παρούσα Μεταπτυχιακή διπλωματική εργασία προτείνει μια νέα προσέγγιση εισάγοντας το BioCNN. Το Βιο-εμπνευσμένο Συνελικτικό Νευρωνικό Δίκτυο (Bio-inspired Convolutional Neural Network) είναι ένας καινοτόμο είδος αρχιτεκτονικής που μιμείται το ανθρώπινο οπτικό σύστημα, ξεκινώντας από τους φωτοϋποδοχείς και τους νευρώνες τους αμφιβληστροειδούς, διαμέσου του έξω πλευρικού γονατώδους πυρήνα (LGN) και καταλήγοντας στα κύτταρα V1 του πρωτεύοντος οπτικού φλοιού. Το δίκτυο εκπαιδεύεται για ταξινόμηση με κατάβαση δυναμικού, χρησιμοποιώντας μια νέα τεχνική μεταβλητού ρυθμού μάθησης που λέγεται Κατάβαση Δυναμικού Αυξομειούμενης Ώσης (Throttled Gradient Descent - TGD). Γενικεύοντας τις διάφορες προσεγγίσεις Σάκου Οπτικών Λέξεων (Bag of Visual Words - BoVW) , ο όρος Γλώσσα Οπτικών Χαρακτηριστικών (Visual Features Language - VFL) χρησιμοποιείται για να περιγράψει μια αναπαράσταση εικόνας φτιαγμένη από «οπτικές λέξεις», που εμπεριέχουν τα τοπικά χαρακτηριστικά της. Το σύνολο των περιγραφέων χαρακτηριστικών για τις περιοχές της εικόνας, συναθροίζεται από τις ενεργοποιήσεις ενός συνελικτικού επιπέδου του BioCNN. Κατόπιν συσταδοποιείται σε οπτικές λέξεις μέσω του Ριζωματικού k-Means (RkMeans), μιας παραλλαγής του Ιεραρχικού k-Means (HkMeans) με μεταβλητό παράγοντα διακλάδωσης. Η σύντηξη οπτικών χαρακτηριστικών υλοποιείται με συνάθροιση των διαφορετικών VFL σε μια ενοποιημένη αναπαράσταση της εικόνας, που ευρετηριοποιείται από μια μηχανή αναζήτησης κειμένου. Ο σκοπός αυτής της διπλωματικής είναι να εξερευνήσει το ερευνητικό πεδίο και να διεξάγει μια αρχική μελέτη χρησιμοποιώντας την αλληλουχία BioCNN-CBIR. Κατά την διάρκεια αυτής, η αρχιτεκτονική BioCNN έδειξε υποσχόμενα αποτελέσματα φτάνοντας σε παρόμοια επίδοση με νικήτριες αρχιτεκτονικές του ImageNet στο CIFAR10, χρησιμοποιώντας μια τάξη μεγέθους λιγότερες παραμέτρους δικτύου από αυτές. (EL)

Μεταπτυχιακή εργασία - Σχολή Τεχνολογικών Εφαρμογών - Τμήμα Μηχανικών Πληροφορικής, 2017 α.α. 8817 (EL)

Deep Convolutional Neural Networks (CNNs) have created new perspectives for Computer Vision and have recently been applied for Content-Based Image Retrieval (CBIR). Nevertheless their applicability for real-world image recognition in Robotics and Medical Imaging is still a subject open to research. Additional improvements in accuracy combined with reduction in computational costs are key issues that future proposals need to address. This Master's thesis proposes a new approach, by introducing the BioCNN. The Bio-inspired Convolutional Neural Network is a novel kind of architecture that imitates the human visual system starting from the photoreceptors and the neurons in the retina, through the lateral geniculate nucleus (LGN) and ending with the V1 cells of the primary visual cortex. The network is trained for classification with gradient descent, using a new technique of variable learning rate called Throttled Gradient Descent (TGD). Making a generalization of the various Bag of Visual Words (BoVW) approaches, the term Visual Features Language (VFL) is used to describe an image representation made of visual words that encapsulate its local features. The set of feature descriptors for the image regions is assembled from the activations of a BioCNN convolutional layer. Then it is clustered into visual words using the Rooting k-Means (RkMeans) algorithm, a variation of Hierarchical k-Means (HkMeans) with variable branching factor. Visual feature fusion is implemented by assembling the different VFLs into a single textual image representation that is indexed by a text search engine. The aim of this thesis is to explore this research field and conduct an initial study using the BioCNN-CBIR pipeline. During this the BioCNN architecture showed promising results in CIFAR10, by achieving similar performance with ImageNet winning architectures using an order of magnitude less network parameters. (EN)

Scientific field

Natural Sciences
Computer and Information Sciences (EN)

Engineering and Technology
Electrical engineering, Electronic engineering, Information engineering (EN)

Subject

Μηχανική Μάθηση (EL)

Βαθιά Εκμάθηση (EL)

Ανάκτηση Πληροφορίας (EL)

Αναγνώριση Εικόνας (EL)

Image Recognition (EN)

Information Retrieval (EN)

Machine Learning (EN)

Deep Learning (EN)

Language

English

School / Department / Institute

Σχολή Τεχνολογικών Εφαρμογών / Τμήμα Μηχανικών Πληροφορικής (EL)

International Hellenic University

Rights

Default License

Provider

International Hellenic University

Repository / collection

Institutional Repository of the International Hellenic University

Subcollections

Διπλωματικές Εργασίες

Σχολή Μηχανικών

Τμήμα Μηχανικών Πληροφορικής & Ηλεκτρονικών Συστημάτων

*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)

Content-Based Image Retrieval using Deep Learning

Βοηθείστε μας να κάνουμε καλύτερο το OpenArchives.gr.