Βαθιά μάθηση για ρομποτική όραση/αντίληψη

This item is provided by the institution :
National Documentation Centre (EKT)   

Repository :
National Archive of PhD Theses  | ΕΚΤ NA.Ph.D.   

see the original item page
in the repository's web site and access all digital files if the item*



Deep learning for robotic visual perception
Βαθιά μάθηση για ρομποτική όραση/αντίληψη

Papaioannidis, Christos
Παπαϊωαννίδης, Χρήστος

PhD Thesis

2023


This dissertation studies deep learning methodologies for facilitating the development of accurate, efficient, and robust robotic visual perception systems. Such systems can enable robots to perform a wide range of visual analysis tasks, that are necessary to interpret their environment, more effectively, thus increasing their operational autonomy and reliability. More specifically, the presented research addresses the problems of object pose estimation, 2D human pose/skeleton estimation, semantic image segmentation, and depth estimation. The main contributions to the problem of object pose estimation are two-fold. First, a multi-objective loss function for training a fast and lightweight Convolutional Neural Network (CNN) as an image feature extractor is proposed, which is based on unit quaternions and allows the CNN to learn 3D pose descriptors from which 3D object poses can be accurately estimated. Second, it is shown that the 3D object pose estimation problem is easier to solve for images originating from the synthetic domain rather than the real data domain. In addition, a two-step 3D object pose estimation framework that exploits this property is introduced. Regarding the problem of 2D human pose/skeleton estimation from monocular RGB images, a novel CNN architecture is proposed, with the goal to achieve balance between high 2D human pose/skeleton estimation accuracy and fast inference. Finally, regarding the problems of semantic image segmentation and depth estimation, a framework for enhancing CNN performance by combining different learning paradigms (supervised and adversarial learning) is proposed. Moreover, the proposed framework is a generic one for increasing CNN accuracy in supervised dense image prediction (where pixel-level estimations are needed), requiring only minimal modifications to accommodate new dense image prediction tasks.
Στην παρούσα διδακτορική διατριβή μελετήθηκαν μεθοδολογίες βαθιάς μάθησης για την ανάπτυξη αποδοτικών συστημάτων ρομποτικής όρασης, μεγαλύτερης ακρίβειας και ευρωστίας, τα οποία είναι κατάλληλα για ρομποτικές εφαρμογές. Αυτά τα συστήματα μπορούν να διευκολύνουν τα ρομπότ να αντιμετωπίζουν ένα ευρύ φάσμα προβλημάτων οπτικής ανάλυσης που είναι απαραίτητα για την αποτελεσματικότερη ερμηνεία του περιβάλλοντός τους, αυξάνοντας έτσι τον βαθμό αυτονομίας τους και την αξιοπιστία τους. Πιο συγκεκριμένα, η παρουσιαζόμενη έρευνα αφορά τα προβλήματα της εκτίμησης στάσης αντικειμένου, της δισδιάστατης εκτίμησης ανθρώπινης στάσης σώματος/σκελετού, της σημασιολογικής κατάτμησης εικόνας και της εκτίμησης βάθους. Οι κύριες συνεισφορές αυτής της διατριβής στο πρόβλημα της εκτίμησης στάσης αντικειμένου είναι δύο. Αρχικά, προτείνεται μια συνάρτηση κόστους με πολλαπλούς στόχους για την εκπαίδευση ενός γρήγορου συνελικτικού δικτύου (Convolutional Neural Network - CNN) ως εξαγωγέα χαρακτηριστικών εικόνας, η οποία βασίζεται στα μoναδιαία τετραδόνια και επιτρέπει στο συνελικτικό δίκτυο να εξάγει περιγραφείς τρισδιάστατης στάσης αντικειμένου από τους οποίους μπορούν να εκτιμηθούν με ακρίβεια οι πραγματικές τριδιάστατες στάσεις αντικειμένων. Δεύτερον, δεικνύεται ότι το πρόβλημα εκτίμησης τρισδιάστατης στάσης αντικειμένου μπορεί να λυθεί πιο εύκολα για συνθετικές εικόνες, παρά για φυσικές εικόνες. Επιπλέον, προτείνεται μια καινοτόμος μέθοδος εκτίμησης τρισδιάστατης στάσης αντικειμένου που αποτελείται από δύο στάδια και εκμεταλλεύεται αυτήν την ιδιότητα. Όσον αφορά το πρόβλημα εκτίμησης της δισδιάστατης ανθρώπινης στάσης σώματος/σκελετού από εικόνες, προτείνεται μια καινοτόμος αρχιτεκτονική συνελικτικού δικτύου, η οποία έχει ως στόχο την επίτευξη ισορροπίας μεταξύ της εκτίμησης δισδιάστατης ανθρώπινης στάσης σώματος/σκελετού με υψηλή ακρίβεια και της γρήγορης παραγωγής προβλέψεων. Τέλος, όσον αφορά τα προβλήματα της σημασιολογικής κατάτμησης εικόνας και της εκτίμησης βάθους, προτείνεται μια μέθοδος για τη βελτίωση της απόδοσης των συνελικτικών δικτύων μέσω του συνδυασμού διαφορετικών μεθοδολογιών μάθησης/εκπαίδευσης (επιβλεπόμενη και αντιπαραθετική μάθηση). Επιπροσθέτως, η προτεινόμενη μέθοδος αποτελεί μια γενική μέθοδο που μπορεί να χρησιμοποιηθεί για την βελτίωση της ακρίβειας των συνελικτικών δικτύων σε προβλήματα επιβλεπόμενης πυκνής πρόβλεψης σε εικόνες (όπου απαιτούνται εκτιμήσεις σε επίπεδο εικονοστοιχείου), απαιτώντας ελάχιστες μόνο τροποποιήσεις για την προσαρμογή της σε νέα προβλήματα πυκνής πρόβλεψης σε εικόνες.

Επιστήμες Μηχανικού και Τεχνολογία ➨ Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ ➨ Ρομποτική
Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Τεχνητή νοημοσύνη

Computer vision
Επιστήμη Ηλεκτρολόγου Μηχανικού, Ηλεκτρονικού Μηχανικού, Μηχανικού Η/Υ
Electrical Engineering, Electronic Engineering, Information Engineering
Artificial Intelligence
Computer and Information Sciences
Υπολογιστική όραση
Φυσικές Επιστήμες
Robotics
Deep learning
Επιστήμες Μηχανικού και Τεχνολογία
Engineering and Technology
Βαθιά μάθηση
Τεχνητή νοημοσύνη
Ρομποτική
Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Natural Sciences
Convolutional neural networks
Συνελικτικά νευρωνικά δίκτυα

English

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ)
Aristotle University Of Thessaloniki (AUTH)

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (ΑΠΘ). Σχολή Θετικών Επιστημών. Τμήμα Πληροφορικής




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)