Τεχνικές βαθιάς μάθησης στα ψηφιακά μέσα

This item is provided by the institution :
National Documentation Centre (EKT)   

Repository :
National Archive of PhD Theses  | ΕΚΤ NA.Ph.D.   

see the original item page
in the repository's web site and access all digital files if the item*



Deep learning techniques in digital media
Τεχνικές βαθιάς μάθησης στα ψηφιακά μέσα

Tzelepi, Maria
Τζελέπη, Μαρία

PhD Thesis

2021


Recent advances in deep learning (DL) provided significant performance increase on various digital media analysis tasks, such as image classification and retrieval. However, despite their effectiveness, DL models suffer from high complexity. This constitutes a major impediment on applying these models on devices with restricted computational power. In this Ph.D thesis, we deal with three different digital media analysis problems, that is content based image retrieval, image classification, and video captioning, utilizing DL techniques. The principal goals of this thesis can be summarized in developing deep representation learning methods oriented to the specific digital media analysis tasks, and in developing lightweight DL methods that allow for deploying them on devices with restricted computational power. To this end, firstly a deep representation learning method for producing efficient retrieval oriented representations was proposed. Subsequently, the proposed method was properly adapted in order to learn more efficient representations considering both the retrieval performance, and the memory requirements and the retrieval speed. Next, lightweight DL models capable of operating even in real-time for high resolution input, on devices with limited computation power were proposed, for addressing generic problems of image classification. In addition, various regularization techniques based on the concept of multitask learning were proposed (e.g., graph embedding based regularization, regularization based on the criterion of quadratic mutual information), improving the generalization ability of the proposed lightweight models. Furthermore, two online self distillation methods were proposed, allowing for training efficient lightweight models in generic classification problems. Finally, a video captioning method was proposed. The proposed method was capable of capturing different kinds of information, producing improved performance in the video captioning task.
Οι πρόσφατες εξελίξεις στον τομέα της Βαθιάς Μάθησης έχουν οδηγήσει σε εξαιρετικά αποτελέσματα για την αντιμετώπιση προβλημάτων ανάλυσης ψηφιακών μέσων, όπως είναι η κατηγοριοποίηση και η ανάκτηση εικόνων. Ωστόσο, οι μέθοδοι Βαθιάς Μάθησης, παρόλο που είναι ικανές να αντιμετωπίσουν αποτελεσματικά τα παραπάνω προβλήματα, παρουσιάζουν υψηλή υπολογιστική πολυπλοκότητα. Αυτό καθίσταται σημαντικό εμπόδιο στην εφαρμογή τους σε συσκευές με περιορισμένη υπολογιστική ισχύ. Στην παρούσα διδακτορική διατριβή μελετήθηκαν μέθοδοι Βαθιάς Μάθησης για την αντιμετώπιση των προβλημάτων της ανάκτησης εικόνων με βάση το σημασιολογικό τους περιεχόμενο, της κατηγοριοποίησης εικόνων, όπως επίσης και της αυτόματης περιγραφής βίντεο με λέξεις. Οι κύριες στοχεύσεις της παρούσας διδακτορικής διατριβής συνοψίζονται στην ανάπτυξη μεθόδων μάθησης αναπαραστάσεων προσαρμοσμένων στα συγκεκριμένα προβλήματα ανάλυσης ψηφιακών μέσων, όπως επίσης και στην ανάπτυξη ελαφρών μεθόδων Βαθιάς Μάθησης που θα επιτρέπουν την εφαρμογή τους σε συσκευές με περιορισμένους υπολογιστικούς πόρους. Για τον σκοπό αυτό, αρχικά αναπτύχθηκε γενική μέθοδος για την εκμάθηση αποτελεσματικών αναπαραστάσεων προσαρμοσμένων στο πρόβλημα της ανάκτησης εικόνων με βάση το σημασιολογικό τους περιεχόμενο. Η μέθοδος, στη συνέχεια, προσαρμόστηκε με σκοπό την εκμάθηση αναπαραστάσεων που βελτιώνουν παράλληλα με την ακρίβεια ανάκτησης, τις απαιτήσεις μνήμης και την ταχύτητα ανάκτησης. Στη συνέχεια, αναπτύχθηκαν ελαφρά μοντέλα Βαθιάς Μάθησης ικανά να εφαρμοστούν ακόμη και σε πραγματικό χρόνο για δεδομένα υψηλής ανάλυσης σε συσκευές με περιορισμένη υπολογιστική ισχύ, για την αντιμετώπιση γενικών προβλημάτων κατηγοριοποίησης εικόνων. Παράλληλα, αναπτύχθηκαν διάφορες τεχνικές κανονικοποίησης βασισμένες στην έννοια της μάθησης πολλαπλών εργασιών (π.χ. κανονικοποίηση βασισμένη στους αλγορίθμους ένθεσης γράφων, κανονικοποίηση βασισμένη στο κριτήριο της τετραγωνικής αμοιβαίας πληροφορίας), που επέτρεψαν την βελτίωση της ικανότητας γενίκευσης των προτεινόμενων ελαφρών μοντέλων. Εν συνεχεία, προτάθηκαν δύο μέθοδοι απευθείας απόσταξης γνώσης από το ίδιο το μοντέλο στον εαυτό του. Οι προτεινόμενες μέθοδοι επέτρεψαν την εκπαίδευση αποτελεσματικών ελαφρών μοντέλων σε προβλήματα κατηγοριοποίησης. Τέλος, προτάθηκε μέθοδος αυτόματης περιγραφής βίντεο με λέξεις, ικανή να συλλέξει διαφορετικούς τύπους πληροφορίας, παρέχοντας βελτιωμένα αποτελέσματα.

Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Τεχνητή νοημοσύνη

Βαθιά απόσταξη γνώσης
Deep knowledge distillation
Artificial Intelligence
Computer and Information Sciences
Φυσικές Επιστήμες
Βαθιά μάθηση για ανάκτηση εικόνων με βάση το σημασιολογικό τους περιεχόμενο
Deep learning
Βαθιά μάθηση
Τεχνικές κανονικοποίησης σε ελαφρά μοντέλα βαθιάς μάθησης
Deep learning for content based image retrieval
Τεχνητή νοημοσύνη
Regularization techniques in lightweight deep learning models
Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Natural Sciences

English

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ)
Aristotle University Of Thessaloniki (AUTH)

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ). Σχολή Θετικών Επιστημών. Τμήμα Πληροφορικής. Τομέας Ψηφιακών Μέσων. Εργαστήριο Τεχνητής Νοημοσύνης και Ανάλυσης Πληροφοριών




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)