Μια Εισαγωγή στην Ενισχυτική Μάθηση

This item is provided by the institution :
/aggregator-openarchives/portal/institutions/uoa   

Repository :
Pergamos Digital Library   

see the original item page
in the repository's web site and access all digital files if the item*



Μια Εισαγωγή στην Ενισχυτική Μάθηση

Καπετανάκης Βασίλειος (EL)
Kapetanakis Vasileios (EN)

born_digital_postgraduate_thesis
Διπλωματική Εργασία (EL)
Postgraduate Thesis (EN)

2021


Η Ενισχυτική Μάθηση αποτελεί μια από τις σπουδαιότερες και πιο ανερχόμενες κατηγορίες Μηχανικής Μάθησης, λόγω της μεγάλης ευελιξίας που διαθέτουν οι αλγόριθμοι της, στην διαχείριση μεγάλων χώρων καταστάσεων και άγνωστων πιθανοτήτων μετάβασης, σε προβλήματα που μοντελοποιούνται ως Μαρκοβιανές Διαδικασίες Αποφάσεων. Στόχος της παρούσας εργασίας είναι η παρουσίαση των βασικών αρχών την Ενισχυτικής Μάθησης, δίνοντας έμφαση τόσο στο απαραίτητο μαθηματικό πλαίσιο στο οποίο είναι δομημένη, όσο και σε αλγορίθμους, πολλοί εκ των οποίων υλοποιούνται στο λογισμικό R για την καλύτερη κατανόηση τους. Αν και οι πολύ τεχνικές μαθηματικές αποδείξεις, απουσιάζουν υπό το πρίσμα μιας εισαγωγής, έγινε προσπάθεια ένταξης εκείνων που κατά κύριο λόγο βασίζονται σε επιχειρήματα της Θεωρίας Πιθανοτήτων που συναντάει κανείς και σε προπτυχιακό επίπεδο. H παρούσα εργασία είναι δομημένη σε 3 Κεφάλαια. Στο Κεφάλαιο 1, γίνεται μια σύντομη επισκόπηση στα 3 βασικότερα είδη Μηχανικής Μάθησης που είναι: η Επιβλεπόμενη Μάθηση, η Μη-Επιβλεπόμενη Μάθηση, και η Ενισχυτική Μάθηση, με σκοπό ο αναγνώστης της εργασίας να μπορεί να διαχωρίζει ποιος είναι ο στόχος του κάθε είδους, και σε ποιες περιπτώσεις το καθένα από αυτά είναι καταλληλότερο. Στο Κεφάλαιο 2, γίνεται μια εισαγωγή σε μια απλουστευμένη υποκατηγορία προβλημάτων Ενισχυτικής Μάθησης γνωστή και ως Multi-Armed Bandits, βασικό χαρακτηριστικό της οποίας είναι ότι η δέσμη των δυνατών αποφάσεων σε κάθε βήμα παραμένει σταθερή. Επίσης στο τέλος του Κεφαλαίου, γίνεται εφαρμογή των αλγορίθμων που διατυπώνονται στο λογισμικό R, με σκοπό την πειραματική επαλήθευση των θεωρητικών τους ιδιοτήτων. Τέλος, το Κεφάλαιο 3 είναι αφιερωμένο στο γενικότερο πλαίσιο της Ενισχυτικής Μάθησης όπου κάθε κατάσταση χαρακτηρίζεται από το δικό της σύνολο αποφάσεων. Αφού διατυπωθούν με σαφήνεια κρίσιμες έννοιες όπως οι Εξισώσεις του Bellman, οι βέλτιστες συναρτήσεις αξίας, και οι οι βέλτιστες πολιτικές, θα προχωρήσουμε στη διατύπωση κάποιων από τους σημαντικότερους Αλγορίθμους Ενισχυτικής Μάθησης που προσεγγίζουν βέλτιστες πολιτικές, τόσο στην περίπτωση που οι πιθανότητες μετάβασης είναι γνωστές, όσο και στην περίπτωση που είναι άγνωστες. (EL)
Reinforcement Learning is one of the most important and up-and-coming categories of Machine Learning, due to the great flexibility of its algorithms, in managing large state spaces and unknown transition probabilities, to problems modeled as Markov Decision Processes. The aim of this postgraduate Thesis is to present the basic principles of Reinforcement Learning, emphasizing both the necessary mathematical framework in which it is structured, and algorithms, many of which are implemented in R software for better understanding. Although the highly technical mathematical proofs are absent in the light of an introduction, an attempt has been made to include those which are mainly based on arguments of Probability Theory, that one can encounter in an undergraduate level of studies. This Thesis is structured in 3 Chapters. Chapter 1, is a brief overview of the 3 main types of Machine Learning: Supervised Learning, Unsupervised Learning, and Reinforcement Learning, so that the reader can distinguish what the goal of each type is, and in which cases each of them is more appropriate. In Chapter 2, an introduction is made to a simplified subset of the Reinforcement Learning Problem also known as the Multi-Armed Bandit Problem, a key feature of which is that the set of possible actions at each time step remains unchanged. In addition, at the end of the Chapter, the algorithms formulated are implemented in the R software, in order to experimentally verify their theoretical properties. Lastly, Chapter 3 is devoted to the general context of Reinforcement Learning where each state is characterized by its own set of actions. Having clearly articulated critical concepts such as the Bellman Equations, optimal value functions, and optimal policies, we will proceed to formulate some of the most important Reinforcement Learning Algorithms that approach optimal policies, both in the case of known and unknown transition probabilities. (EN)

Θετικές Επιστήμες

Θετικές Επιστήμες (EL)
Science (EN)

Greek

Σχολή Θετικών Επιστημών » Τμήμα Μαθηματικών » ΠΜΣ Μαθηματικά » Κατεύθυνση Στατιστική και Επιχειρησιακή Έρευνα
Βιβλιοθήκη και Κέντρο Πληροφόρησης » Βιβλιοθήκη Σχολής Θετικών Επιστημών

https://creativecommons.org/licenses/by-nc/4.0/




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)