Μοντελοποίηση με μαρκοβιανές διαδικασίες αποφάσεων : θεωρία και εφαρμογές

Το τεκμήριο παρέχεται από τον φορέα :
Πανεπιστήμιο Αιγαίου   

Αποθετήριο :
Ιδρυματικό Αποθετήριο Ελλάνικος (Hellanicus)   

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*



Μοντελοποίηση με μαρκοβιανές διαδικασίες αποφάσεων : θεωρία και εφαρμογές

Κουρτάκης, Κωνσταντίνος - Εμμανουήλ

Δημητράκος, Θεοδόσης

masterThesis

2015
2015-11-18T10:20:22Z


Οι άνθρωποι στην καθημερινότητά τους παίρνουν αποφάσεις που έχουν τόσο άμεσες όσο και μακροπρόθεσμες συνέπειες. Πιο συγκεκριμένα υποθέτουμε ότι σε μια συγκεκριμένη χρονική στιγμή, ένας λήπτης αποφάσεων, παρατηρεί την κατάσταση του συστήματος. Με βάση αυτή την κατάσταση, ο λήπτης αποφάσεων επιλέγει μία ενέργεια ,η οποία δημιουργεί δύο αποτελέσματα, όφελος ή κόστος. Στο αμέσως επόμενο χρονικό σημείο, ο λήπτης αποφάσεων αντιμετωπίζει ένα παρόμοιο πρόβλημα, αλλά τώρα το σύστημα μπορεί να είναι σε μία διαφορετική κατάσταση και μπορεί να υπάρχει ένα σύνολο ενεργειών για να επιλέξει. Θεωρητικά η ωφελιμότερη ενέργεια μπορεί να επιλεχθεί ακολουθώντας μια πολιτική ,δηλαδή μια σειρά από κανόνες λήψης αποφάσεων. Εξετάζουμε ένα συγκεκριμένο μοντέλο διαδοχικών αποφάσεων στο οποίο αναφερόμαστε ως μοντέλο διαδικασίας λήψης αποφάσεων Markov. Σε αυτό, το σύνολο των διαθέσιμων ενεργειών, οι ανταμοιβές, και οι πιθανότητες μετάβασης εξαρτώνται μόνο από την τρέχουσα κατάσταση και ενέργεια και όχι από τις καταστάσεις που επικρατούσαν και τις ενέργειες που επιλέχθηκαν στο παρελθόν.Ένα Μαρκοβιανό μοντέλο διαδικασίας αποφάσεων αποτελείται από πέντε στοιχεία: χρονικές στιγμές λήψης αποφάσεων, καταστάσεις, ενέργειες, πιθανότητες μετάβασης και ανταμοιβές. Οι αποφάσεις που λαμβάνονται σε κάποια χρονικά σημεία ,αναφέρονται ως χρονικές στιγμές λήψης αποφάσεων. Σε διακριτά προβλήματα χρόνου, ο χρόνος χωρίζεται σε περιόδους, έτσι ώστε η χρονική στιγμή λήψης απόφασης να αντιστοιχεί στην αρχή της περιόδου. Σε κάθε χρονική στιγμή λήψης αποφάσεων, το σύστημα βρίσκεται σε μια κατάσταση. Ορίζουμε το σύνολο των πιθανών καταστάσεων του συστήματος ως S. Εάν, σε κάποια χρονική στιγμή λήψης αποφάσεων, ο λήπτης αποφάσεων παρατηρεί το σύστημα στην κατάσταση s ϵ S, μπορεί να επιλέξει μια ενέργεια από το σύνολο των επιτρεπόμενων ενεργειών στην κατάσταση S,Αs . Οι ενέργειες μπορεί να επιλεχθούν είτε τυχαία είτε νομοτελειακά. Με P(As) συμβολίζουμε την πιθανότητα κατανομής στο Borel υποσύνολο του Α. Ως αποτέλεσμα επιλογής μίας ενέργειας α ϵ Α, στην κατάσταση s σε χρονική στιγμή λήψης απόφασης t, ο λήπτης αποφάσεων λαμβάνει μια ανταμοιβή, rt (s, α) και η κατάσταση του συστήματος κατά την επόμενη χρονική στιγμή λήψης απόφασης καθορίζεται από την κατανομή πιθανότητας pt, (•│, α). Ο προσδιορισμός “Markov” χρησιμοποιείται επειδή οι συναρτήσεις πιθανοτήτων μετάβασης και ανταμοιβής εξαρτώνται από το παρελθόν μόνο μέσα από την τρέχουσα κατάσταση του συστήματος και τη δράση που επιλέγεται από τον αποφασίζοντα σε αυτή την κατάσταση. Ένας κανόνας απόφασης προβλέπει μία διαδικασία για την επιλογή ενεργειών σε κάθε κατάσταση σε μια συγκεκριμένη χρονική στιγμή λήψης απόφασης. Οι εν λόγω κανόνες λήψης αποφάσεων είναι συναρτήσεις dt: S→As, οι οποίες καθορίζουν την επιλογή ενεργειών, όταν το σύστημα βρίσκεται στην κατάσταση s στην χρονική στιγμή λήψης απόφασης t για κάθε s ϵ S, dt(s) ϵ Αs. Καλούμε έναν κανόνα απόφασης ως μια ντετερμινιστική ιστορία αν αυτός εξαρτάται από την προηγούμενη κατάσταση του συστήματος, και αντιπροσωπεύεται από την αλληλουχία των προηγούμενων καταστάσεων και ενεργειών. Ταξινομούμε τους κανόνες λήψης αποφάσεων σε, εξαρτημένη και τυχαιοποιημένη ιστορία (HR), εξαρτημένη και ντετερμινιστική ιστορία (HD), Μαρκοβιανή και τυχαιοποιημένη (MR), ή Markov και ντετερμινιστική (MD), ανάλογα με το βαθμό εξάρτησής τους από τις προηγούμενες πληροφορίες σχετικά με τη μέθοδο της επιλογής ενεργειών τους. Μια πολιτική π προσδιορίζει τον κανόνα απόφασης που πρόκειται να χρησιμοποιηθεί σε όλες τις χρονικές στιγμές λήψης αποφάσεων.Ως αποτέλεσμα της επιλογής και εφαρμογής μιας πολιτικής, η λήψη της απόφασης λαμβάνει ανταμοιβές στις χρονικές στιγμές 1,. . . , N. Από τη στιγμή που δεν είναι γνωστό , εκ των προτέρων, ποια θα είναι η πολιτική που θα ακολουθηθεί, ο ελεγκτής πρέπει να δει την ακολουθία των ανταμοιβών ως τυχαία. Στόχος του είναι να επιλέξει μια πολιτική, έτσι ώστε η αντίστοιχη τυχαία αλληλουχία ανταμοιβών να είναι όσο το δυνατόν βέλτιστη. Η θεωρία διαδικασιών Markov για τις αποφάσεις και οι αλγόριθμοι για τα μοντέλα πεπερασμένου χρονικού ορίζοντα κυρίως αφορούν τον καθορισμό μιας πολιτικής με τη μεγαλύτερη αναμενόμενη συνολική αμοιβή.

Stochastic processes
Markov processes

Μαρκοβιανές διαδικασίες
Markov
Stochastic processes
Στοχαστικές ανελίξεις

Πανεπιστήμιο Αιγαίου. Σχολή Θετικών Επιστημών. Τμήμα Μαθηματικών. Μαθηματική Μοντελοποίηση στις Φυσικές Επιστήμες και τις Σύγχρονες Τεχνολογίες.




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.