Ανάλυση και Περιγραφή πολυμεσικών δεδομένων με χρήση συνελικτικών νευρωνικών δικτύων και νευρώνων μακράς βραχυπρόθεσμης μνήμης

 
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2016 (EL)
Ανάλυση και Περιγραφή πολυμεσικών δεδομένων με χρήση συνελικτικών νευρωνικών δικτύων και νευρώνων μακράς βραχυπρόθεσμης μνήμης

Δασκαλάκης, Ελευθέριος Νικολάου

The past few years, research activity in deep learning has increased dramatically, after the presentation of Convolutional Neural Networks (CNN) and their successful uses in image classification. Additionally, recent implementations of Recurrent Neural Networks (RNN) composing of Long Short-Term Memory (LSTM) modules, have opened new paths towards new areas in Computer Vision research. Latest research papers in Computer Vision have shown that by combining such networks, hybrid end-to-end models can be trained, to ``translate'' image or video content to regular text. In our work, we will present such a video captioning system, which ``translates'' videos to sentences, using a deep neural network consisting mainly of two parts, each having convolutional and recurrent structure. By transferring knowledge from pretrained convolutional neural networks on large datasets (e.g. ImageNet) and using video description datasets, we were able to train working video captioning models. Our initial setup takes advantage of known architectures composed of a CNN followed by a LSTM Network. Such models were initially designed for static image description tasks but in this work we will introduce some additions and modifications that will allow us to describe small videos.
Τα τελευταία χρόνια, η ερευνητική δραστηριότητα στην «Βαθιά Μάθηση» έχει αυξηθεί δραματικά, μετά την παρουσίαση των συνελικτικών νευρωνικών δικτύων (ΣΝΔ) και των επιτυχημένων χρήσεών τους στην Ταξινόμηση εικόνων. Επιπρόσθετα, πρόσφατες υλοποιήσεις Αναδρομικών Νευρωνικών Δικτύων (ΑΝΔ) αποτελούμενων από νευρώνες Μακράς Βραχυπρόθεσμης Μνήμης (ΜΒΜ), έχουν ανοίξει νέους δρόμους προς έρευνα στον τομέα της Τεχνητής Όρασης. Τελευταίες ερευνητικές εργασίες στην Τεχνητή Όραση έχουν δείξει πως ο συνδυασμός των παραπάνω δικτύων, οδηγεί σε υβριδικά μοντέλα τα οποία μπορούν να εκπαιδευτούν έτσι ώστε να «μεταφράζουν», σημασιολογικά, το πολυμεσικό περιεχόμενο εικόνων και βίντεο σε απλό κείμενο. Στην παρούσα εργασία, θα παρουσιάσουμε ένα τέτοιο σύστημα, το οποίο «μεταφράζει» βίντεο σε προτάσεις, χρησιμοποιώντας ένα βαθύ νευρωνικό δίκτυο, αποτελούμενο κυρίως από δύο μέρη, το καθένα με συνελικτική και αναδρομική δομή αντίστοιχα. Μεταφέροντας γνώση προεκπαιδευμένων συνελικτικών νευρωνικών δικτύων σε μεγάλα σετ δεδομένων (π.χ. ImageNet) και κάνοντας χρήση άλλων σετ δεδομένων ειδικά για το σκοπό της «σημασιολογικής περιγραφής» σε βίντεο, ήμασταν σε θέση να εκπαιδεύσουμε επιτυχώς, λειτουργικά συστήματα περιγραφής βίντεο. Η αρχική μας εγκατάσταση, εκμεταλλεύεται υπάρχουσες αρχιτεκτονικές που συγκροτούνται από ένα Συνελικτικό δίκτυο, ακολουθούμενο από ένα Αναδρομικό, αποτελούμενο από νευρώνες Μακράς Βραχυπρόθεσμης Μνήμης. Παρόμοια μοντέλα αρχικά σχεδιάστηκαν με σκοπό την σημασιολογική περιγραφή στατικών εικόνων, όμως στην παρούσα εργασία θα αναπτύξουμε επιπρόσθετες μεθόδους που εφαρμόσαμε έτσι ώστε να είμαστε σε θέση να περιγράφουμε βίντεο μικρού μήκους.

info:eu-repo/semantics/masterThesis
Postgraduate Thesis / Μεταπτυχιακή Εργασία

Συνελικτικά Νευρωνικά Δίκτυα
Βαθιά μάθηση
Νευρώνες Μακράς Βραχυπρόθεσμης Μνήμης
Convolutional Neural Networks
Long Short-Term Memory
Deep Learning

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (EL)
Aristotle University of Thessaloniki (EN)

Ελληνική γλώσσα

2016
2016-10-10T11:40:33Z


Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, Σχολή Θετικών Επιστημών, Τμήμα Πληροφορικής

This record is part of 'IKEE', the Institutional Repository of Aristotle University of Thessaloniki's Library and Information Centre found at http://ikee.lib.auth.gr. Unless otherwise stated above, the record metadata were created by and belong to Aristotle University of Thessaloniki Library, Greece and are made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). Unless otherwise stated in the record, the content and copyright of files and fulltext documents belong to their respective authors. Out-of-copyright content that was digitized, converted, processed, modified, etc by AUTh Library, is made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). You are kindly requested to make a reference to AUTh Library and the URL of the record containing the resource whenever you make use of this material.
info:eu-repo/semantics/openAccess



*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.