Κατά τα προηγούμενα χρόνια, αρκετά επιτραπέζια παιχνίδια έχουν χρησιμοποιηθεί σαν χώρος ανάπτυξης και δοκιμής, διαφόρων τεχνικών τεχνητής νοημοσύνης. Τα επιτραπέζια παιχνίδια είναι ιδανικά για αυτό το ρόλο, καθώς προσφέρουν ένα περιβάλλον με αυστηρά καθορισμένους κανόνες, που δεν επιδέχονται εξαιρέσεις, και τα αποτελέσματα δεν παρουσιάζουν σφάλματα ή «θορύβους». Είναι ένας ιδεατός κόσμος, στον οποίο μπορούν να δοκιμαστούν θεωρίες και τεχνικές, και να εκτιμηθεί η αποτελεσματικότητα τους, πριν την επέκταση τους στο «χάος» του πραγματικού κόσμου. Στόχος της παρούσης εργασίας ήταν η δημιουργία αλγόριθμου τεχνητής νοημοσύνης, βασισμένου στη μέθοδο της εξαναγκασμένης μάθησης, και πιο συγκεκριμένα στην τεχνική Q Learning, ικανού να αναπτύξει στρατηγική με προοπτικές νίκης, για ένα επιτραπέζιο παιχνίδι. Το ερώτημα που προσπαθούμε να απαντήσουμε, είναι το κατά πόσο η συγκεκριμένη τεχνική, είναι ικανή να ανταποκριθεί με ικανοποιητικό τρόπο, σε ένα πολύπλοκο περιβάλλον, και να εκπαιδεύσει έναν πράκτορα, ώστε να παίρνει την καλύτερη δυνατή απόφαση, όταν ο αριθμός των επιλογών είναι μεγάλος. Στην πορεία της εργασίας ανέκυψε και ένα νέο ερώτημα, κατά πόσο είναι δυνατό επιφέροντας κάποιες αλλαγές στην μέθοδο επιλογής ενεργειών του πράκτορα, να επιταχύνουμε την εκπαίδευση, χωρίς να μειώσουμε την αποτελεσματικότητά του. Επιλέξαμε το επιτραπέζιο παιχνίδι καρτών Dominion (Κυρίαρχος) για τις δοκιμές μας, καθώς έχει αρκετά απλούς κανόνες, αλλά ο αριθμός των διαφορετικών καρτών που χρησιμοποιούνται, δημιουργεί ένα μεγάλο φάσμα διαφορετικών επιλογών, και καθιστά το στόχο της εκπαίδευσης του πράκτορα αρκετά προκλητικό. Επίσης κατά το παρελθόν, άλλες τεχνικές εξαναγκασμένης μάθησης, όπως τα νευρωνικά δίκτυα και τα Monte Carlo Trees, έχουν δοκιμαστεί πάνω στο συγκεκριμένο παιχνίδι, οπότε μπορούν να εξαχθούν χρήσιμα συμπεράσματα, από τα αποτελέσματα της κάθε τεχνικής.