This item is provided by the institution :

Repository :
E-Locus Institutional Repository
see the original item page
in the repository's web site and access all digital files if the item*

2010 (EN)
Κλιμακώσιμη αποθήκευση και ανοχή σφαλμάτων για συστήματα επεξεργασίας συνεχόμενης ροής δεδομένων
Scalable storage support and fault-tolerance for data stream processing systems

Sebepou, Zoe
Σεμπέπου, Ζωή Ιωάννη

Μπίλας, Άγγελος

Τα συστήματα συνεχόμενης ροής και επεξεργασίας ηλεκτρονικής πληροφορίας προσέφεραν στο παρελθόν περιορισμένη υποστήριξη για μόνιμη αποθήκευση των δεδομένων που παράγουν για τρεις βασικούς λόγους. πρώτον, η επεξεργασία γίνεται κυρίως πάνω στα τρέχοντα δεδομένα και υπό την υπόθεση οτι δεν θα υπάρξουν αποτυχίες λειτουργίας στο σύστημα, δεν χρειάζεται πρόσβαση σε δεδομένα που δημιουργήθηκαν στο παρελθόν. Δεύτερον, οι περισσότερες λύσεις που υπάρχουν σήμερα για την αντιμετώπιση λαθών ή για την πρόληψη αποτυχιών στην λειτουργία τέτοιων συστημάτων, βασίζονται κυρίως στην διαθέσιμη μνήμη για την προσωρινή αποθήκευση των δεδομένων. Πιο αναλυτικά η πληροφορία που έχει ήδη επεξεργαστεί, αποθηκεύεται στη μνήμη όμοιων κόμβων, ειδικά προσαρμοσμένων να αναλάβουν λειτουργία σε περίπτωση αποτυχίας των αρχικών μονάδων που συμμετέχουν στο δίκτυο επεξεργασίας. Τέλος, οι συσκευές αποθήκευσης (όπως για παράδειγμα σκληροί δίσκοι) θεωρούνται ότι περιορίζουν την απόδοση του συστήματος αλλά και τον χρόνο απόκρισης σε σχέση με την απόδοση της κύριας μνήμης, και έτσι δεν χρησιμοποιήθηκαν εκτενώς στο παρελθόν. Σε αυτήν την εργασία παρέχουμε στα συστήματα αυτά τη δυνατότητα μόνιμης αποθήκευσης με τη χρήση ενός κλιμακώσιμου κατανενημένου μέσου αποθήκευσης. Το μονοπάτι αποθήκευσης που αναπτύξαμε επιτρέπει δύο βασικές βελτιώσεις στις δυνατότητες αυτών των συστημάτων. Αρχικά επιτρέπει μόνιμη αποθήκευση των δεδομένων που παράγονται για να μπορεί να επιτευχθεί αργότερα αναφορά σε αυτά. Με άλλα λόγια, επερωτήσεις, πάνω στα δεδομένα μπορούν τώρα να συνδυάσουν την τρέχουσα πληροφορία με το παρλεθόν οποτεδήποτε ζητηθεί. Επιπλέον, η ανοχή απέναντι σε λάθη επιτυγχάνεται χωρίς να περιορίζεται στο σύστημα από το μέγεθος της διαθέσιμης μνήμης, αποθηκεύοντας συγκεκριμένα κομμάτια της τρέχουσας πληροφορίας ως σημεία ελέγχου. Αργότερα και σε περίπτωση όπου συνέβη κάποιο λάθος, τα σημεία ελέγχου χρησιμοποιούνται σαν αρχικό σημείο από το οποίο και ύστερα πρέπει να ξαναεπεξεργαστεί το σύστημα τα δεδομένα τα οποία χάθηκαν λόγο αποτυχίας. Για το σκοπό αυτό αναπτύσουμε ένα νέο μηχανισμό που ονομάζεται continuous eventual checkpoints - CEC, ο οποίος παρέχει στο συστημα ανοχή σε λάθη λειτουργιας χωρίς να χρειαστεί να καθυστερήσει ή να παγώσει την τρέχουσα επεξεργασία δεδομένων για τη δημιουργία των σημείων ελέγχου. Αυτο επιτυγχάνεται χωρίζοντας την τρέχουσα επεξεργασμένη πληροφορία σε κομμάτια και προγραμματίζοντας την αποθήκευση των επιμέρους κομματιών σε συγκεκριμένες και ανεξάρτητες χρονικές στιγμές. Τα αποτελέσματα μας δείχνουν πως ένα τέτοιο σύστημα μπορεί να επιτύχει κλιμακώσιμη αποθήκευση των δεδομένων πάνς από ένα κατάλληλα προσαρμοσμένο μέσο αποθήκευσης. Επίσης επιτυγχάνεται προστασία από αποτυχίες λειτουργίας με μικρό κόστος αφιερώνοντας ένα προσαρμίσιμο χρονικό διάστημα για την παραγωγή και αποθήκευση των σημείων ελέγχου. Η διάρκεια αυτού του διαστήματος καθορίζει το κόστος ανάμεσα στην απόδοση του συστήματος σε κανονική λειτουργία και στο χρόνο που θα απαιτηθεί για την ανάκαμψη του μετά από μια ενδεχόμενη αποτυχία. (EL)
Continuous data stream processing systems have offered limited support for data persistence in the past, for three main raisons: First, online, real-time queries examine current streaming data and under the assumption of no server failures, do not require access to past data. Second, most fault-tolerance solutions for streaming systems are currently memory-based, keeping state replicas in the memory of stream processing nodes. Finally, stable storage devices are commonly thought to be constraining system throughput and response times when compared to main memory, and are thus kept off the common path. In this thesis we provide data streaming systems with a scalable path to persistent storage. Our persistance path allows two fundamental enhancements to data streaming systems' capabilities: First, it allows stream persistence for reference/archival purposes. In other words, queries can now be applied an past data on-demand. Second, fault tolerance is achievable by checkpointing and stream replay schemes that are not constrained by the size of main memory. For stateful operators we present continuous eventual checkpoints (CEC), a novel mechanism to provide fault-tolerant guarantees by taking continuous state checkpoints without pausing the operator. We achieve this by separating state into parts and by treating these parts independently. Our results show that our system can achieve scalable stream persistence over a high-performance tunable paralles file system and low overhead fault-tolerance with an adjustable checkpoint inetrval, trading off recovery time with performance. (EN)

Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης



Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης

*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)