Τα τελευταία χρόνια, η άνοδος της ενισχυτικής μάθησης την έχει εγκαθιδρύσει ώς την πιο προηγμένη μέθοδο στον τομέα των μηχανών παιχνιδιών βασισμένων σε νευρωνικά δίκτυα. Χάρη σε αυτήν, η εταιρία Deep Mind, δημιούργησε το AlphaGo και κατάφερε επίδοση πολύ μεγαλύτερη από ό,τι θεωρούνταν ότι είναι πιθανό για την εποχή. Μετά από λίγο καιρό, το βελτιωμένο AlphaGo Zero κατάφερε να ξεπεράσει ακόμα και αυτά τα αποτελέσματα, χρησιμοποιώντας μηδενική προϋπάρχουσα γνώση. Από τότε, οι μελέτες στην τεχνητή νοημοσύνη συγκεντρώθηκαν περισσότερο στην προσέγγιση της ενισχυτικής μάθησης. Σε αυτήν την εργασία επιχειρούμε να δημιουργήσουμε ένα μοντέλο μηχανικής μάθησης το οποίο μαθαίνει να παίζει σκάκι με μηδενική προϋπάρχουσα γνώση, βασισμένο στον αλγόριθμο εκπαίδευσης του AlphaGo Zero. Η διαφορές στα παιχνίδια σκάκι και Go δημιουργούν την ανάγκη για έναν πιο γενικευμένο αλγόριθμο, ο οποίος δεν εκμεταλλεύεται τις ιδιότητες των παιχνιδιών αυτών. Λαμβάνουμε επίσης υπ' όψιν τα όρια στα μηχανήματα που έχουμε στη διάθεσή μας και προσπαθούμε να επιτύχουμε όσο το δυνατόν καλύτερα αποτελέσματα σε περιορισμένο χρόνο και μνήμη κατά την εκπαίδευση. Με τα απολύτως απαραίτητα εργαλεία, το μοντέλο μας αναπτύσσει μια σταθερή διαδικασία εκπαίδευσης και σταδιακά βελτιώνει τον τρόπο παιξίματος, νικώντας τις προηγούμενες φάσεις του σε βάθος χρόνου.
(EL)
In recent years, reinforcement learning has risen to become the state of the art method in neural network based game engines. With the creation of AlphaGo, DeepMind achieved results that were thought to be unreachable in the near future. Then, AlphaGo Zero broke even that barrier, surpassing every other game engine using no prior domain knowledge. Since then, Artificial Intelligence studies have steered towards the pure reinforcement learning approach. In this paper, we attempt to create a model that learns to play chess without prior knowledge, using a generalized training procedure based on AlphaGo Zero. The difference in game rules between chess and Go create the need for a more general purpose algorithm, free from limitations the rules each different game demands. Modifications were also necessary to overcome the hardware limitations we face. Using the bare essentials for machine learning model training, our model is able to achieve a steady learning process, slowly getting better and beating its previous versions with each iteraion.
(EN)