Review of the MuZero Algorithm with Implementation on Quoridor

This item is provided by the institution :
/aggregator-openarchives/portal/institutions/uoa   

Repository :
Pergamos Digital Library   

see the original item page
in the repository's web site and access all digital files if the item*



Review of the MuZero Algorithm with Implementation on Quoridor

ΜΥΣΤΡΙΩΤΗΣ ΔΗΜΗΤΡΙΟΣ (EL)
MYSTRIOTIS DIMITRIOS (EN)

born_digital_graduate_thesis
Πτυχιακή Εργασία (EL)
Graduate Thesis (EN)

2024


Αυτή η πτυχιακή εργασία πραγματεύεται την ανάπτυξη του αλγορίθμου MuZero από την DeepMind και την εφαρμογή του στο παιχνίδι του Quoridor. Ο αλγόριθμος είναι ένας αλγόριθμος βαθιάς ενισχυτικής μάθησης που επεκτείνει προηγούμενους αλγόριθμους επιτυγχάνοντας εξαιρετική απόδοση στη μάθηση και στον σχεδιασμό. Η βασική διαφορά με τους προγόνους του είναι η ικανότητα λειτουργίας σε πολύπλοκα περιβάλλοντα χωρίς προηγούμενη γνώση. Όλη η γνώση των κανόνων και της δυναμικής του παιχνιδιού μαθαίνεται μέσω των αλληλεπιδράσεων με το περιβάλλον. Ο αλγόριθμος εκπαιδεύεται μέσω του self-play, όπου μαθαίνει παίζοντας παιχνίδια εναντίον του εαυτού του και χρησιμοποιεί τα δεδομένα που δημιουργούνται για να βελτιώσει την απόδοσή του. Η πτυχιακή εργασία εξετάζει επίσης το περιβάλλον του Quoridor, ενός ανταγωνιστικού επιτραπέζιου παιχνιδιού στρατηγικής δύο παικτών, και την εφαρμογή του αλγορίθμου MuZero σε αυτό. (EL)
This thesis discusses the development of the MuZero algorithm by DeepMind and its application in the game of Quoridor. The algorithm is a deep reinforcement learning algorithm that expands on previous algorithms to achieve exceptional performance in learning and planning. The key difference from its predecessors is the ability to operate in complex environments without any prior knowledge. All knowledge of game rules and dynamics is learned through interactions with the environment. The algorithm is trained through self-play, where it learns by playing games against itself, and uses the generated data to improve its performance. The thesis also discusses the environment of Quoridor, a competitive two-player strategy board game, and the application of the MuZero algorithm to it. (EN)

Τεχνολογία – Πληροφορική

Τεχνολογία – Πληροφορική (EL)
Technology - Computer science (EN)

English

Βιβλιοθήκη και Κέντρο Πληροφόρησης » Βιβλιοθήκη Σχολής Θετικών Επιστημών » Πληροφορική
Σχολή Θετικών Επιστημών » Τμήμα Πληροφορικής & Τηλεπικοινωνιών

https://creativecommons.org/licenses/by-nc/4.0/




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)