An actor-critic deep reinforcement learning agent for visual object tracking

 
Το τεκμήριο παρέχεται από τον φορέα :

Αποθετήριο :
Ιδρυματικό Αποθετήριο Ολυμπιάς
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2019 (EL)

An actor-critic deep reinforcement learning agent for visual object tracking (EN)

Merkos, Asterios (EN)

Μπλέκας, Κωνσταντίνος (EL)
Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Επιστήμης Υλικών (EL)
Merkos, Asterios (EN)

Η Ενισχυμενη Μαθηση είναι ενα σημαντικό εργαλείο για να λύνουμε περίπλοκα προβλήματα και προβληματα αποφάσεων, που αντιμετωπίζουμε σε πολλες εφαρμογές στο πραγματικό κοσμο. To Visual Object tracking είναι ένα απο τα πιο σημαντικά προβλήματα στο τομέα της υπολογιστικής όρασης και προσπαθεί να βρεί τη θέση ενός αντικειμένου. Σε αυτή την εργασία παρουσιάζουμε μια Deep Reinforcement Learning (DRL) προσέγγιση για να λύσουμε το πρόβλημα του visual object tracking χρησιμοποιώντας μια πρόσεγγιση για visual tracking σε βίντεο το οποίο μαθαίνει να προβλέπει τη θεση του κουτιού που περιέχει το αντικείμενο που θέλουμε να παρακολουθήσουμε σε κάθε εικονοσειρά. Μια Actor-Critic αρχιτεκτονικη της ενισχυμένης μάθησης προτείνεται η οποία αλληλεπιδρά με το βίντεο εισόδου. Αποτελείται απο δυο νευρωνικά δίκτυα: ένα action decision (policy) network που είναι σχεδιαμένο να παρέχει ενέργειες για να βρεθεί η θέση του αντικειμένου στο καινούργιο εικονοπλαίσιο και ένα αλλο δίκτυο τον critic ο οποίος χρησιμοποιείται για να προσεγγισουμε το value function και κάνουμε εξερεύνηση στο χώρο τον καταστάσεων. Και τα δύο νευρωνικά δίκτυα συνεργάζονται για να πετύχουν μια καλύτερη απόδοση στο tracking. To δίκτυο του critic έχει μια δομή βαθειών συνελλεκτικών νευρωνικών δικτύων και παίρνει σαν είσοδο όλη την εικόνα του εικονοπλαισίου. Επίσης μελετήθηκε και η συνάρτηση ανταμοιβής, η οποία αξιολογεί τη κάθε μετακίνηση του κουτιού βασισμένο στη διαφορά του περιεχομένου με το hash κώδικα του κουτιού. Ο πράκτορας εκπαιδεύεται για να μάθει κάλες πολιτικές για tracking τέτοιες ώστε να μεγιστοποιείται η απόδοση του tracking στη πορεία. Ο προτεινόμενος αλγόριθμος συγκρίθηκε στα πειράματα με παραδοσιακούς trackers όπως Meanshift, Boosting, Medianflow και Mil. (EL)
Reinforcement learning provides a general framework for solving complex and uncertain sequential decision problems, encountered in many real-world applications. Visual object tracking is one of the fundamental problems in the computer vision field that aims at finding the location of a target object. In this thesis we present a Deep Reinforcement Learning (DRL) approach for solving the visual tracking problem by employing an end-to-end approach for visual tracking in videos that learns to predict the bounding box locations of a target object at every frame. An Actor-Critic architecture of reinforcement learning is proposed that interacts with the input video overtime. It consists of two neural network structures: an action decision (policy) network that is designed to generate actions to find the location of the target object in a new frame, and another network, the critic, which is used for approximating the value function and explores the state space. Both neural nets work together to achieve a better tracking performance. The critic network has a deep structure and is designed with a convolutional neural network (CNN) in the input is the image frame. A reward function is also studied that evaluates every transition based on a content-based difference of the hash code of the bounding box. The reinforcement learning agent is trained so as to learn good tracking policies that maximize the tracking performance in the long run. The proposed algorithm is experimentally compared with common approaches for tracking such as Meanshift, Boosting, Medianflow and Mil. (EN)

masterThesis

Ενισχυμένη διδασκαλία (EL)
Actor-Critic (EN)


Αγγλική γλώσσα

2019


Πανεπιστήμιο Ιωαννίνων. Πολυτεχνική Σχολή. Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής (EL)




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.