Μοντελοποίηση της επίδοσης και του κόστους αλγορίθμων συνένωσης σε εφαρμογές μεγάλου όγκου δεδομένων

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*



Μοντελοποίηση της επίδοσης και του κόστους αλγορίθμων συνένωσης σε εφαρμογές μεγάλου όγκου δεδομένων (EL)
Profiling and cost modelling of join algorithms for big data analytics (EN)

Δαμασκηνός, Γεώργιος (EL)
Damaskinos, Georgios (EN)

ntua (EL)
Γκούμας, Γεώργιος (EL)
Τσουμάκος, Δημήτριος (EL)
Κοζύρης, Νεκτάριος (EL)

bachelorThesis

2015-07-14
2016-04-25T09:05:16Z
2016-04-25


Η συνεχής εξέλιξη της επιστήμης των υπολογιστών έχει επιφέρει ραγδαία αύξηση στον όγκο των δεδομένων που αποθηκεύονται συνεχώς σε διάφορα data - center. Είναι γεγονός ότι τα δεδομένα αυτά περιέχουν απίστευτα χρήσιμη πληροφορία. Μία άκρως ενδιαφέρουσα και πολυπληθής συλλογή από μηχανές, βιβλιοθήκες και τεχνικές είναι διαθέσιμη για κάθε χρήστη που προσπαθεί να εξαγάγει αυτήν την πληροφορία προκειμένου να καταλήξει σε ενδιαφέροντα συμπεράσματα. Ωστόσο λόγω του μεγέθους και της πολυπλοκότητας αυτής της συλλογής είναι πρακτικά αδύνατο για έναν μέσο χρήστη να επιλέξει τον ιδανικό συνδυασμό, βασισμένος στον σκοπό και στους διαθέσιμους πόρους του. Σκοπός της παρούσας διπλωματικής είναι η συνεισφορά στον σχεδιασμό και στην υλοποίηση ενός συστήματος που θα δέχεται ως είσοδο από έναν χρήστη, ή ένα άλλο σύστημα, τους διαθέσιμους πόρους, το είδος της εργασία, καθώς και το επιθυμητό αποτέλεσμα στα πλαίσια βελτιστοποίησης κάποιας παραμέτρου επίδοσης (π.χ. ελάχιστος χρόνος εκτέλεσης). Στη συνέχεια, βασιζόμενο στα κατάλληλα μοντέλα, θα προτείνει στον χρήστη τον ιδανικό τρόπο εκτέλεσης της εργασίας του. Το είδος της εργασίας του χρήστη στην εν λόγω μελέτη, περιορίζεται σε αλγορίθμους συνένωσης μεγάλου όγκου δεδομένων. Η επίτευξη του σκοπού αυτού γίνεται διαμέσου της υλοποίησης διαφόρων αλγορίθμων συνένωσης σε διάφορες μηχανές. Στην συνέχεια παρακολουθείται το προφίλ της επίδοσης και του κόστους αυτών των αλγορίθμων για διάφορους συνδυασμούς παραμέτρων. Τέλος δημιουργούνται τα κατάλληλα μοντέλα τα οποία το σύστημα θα εξετάζει προκειμένου να πετύχει το ζητούμενο. Η διπλωματική αυτή, αποτελεί τμήμα μίας πλατφόρμας προσαρμοστικής και κλιμακώσιμης ανάλυσης δεδομένων μεγάλου όγκου (ASAP) και πιο συγκεκριμένα ενός ευφυούς δρομολογητή (IReS), ο οποίος είναι υπεύθυνος για την έξυπνη διαχείριση των υπαρχόντων πόρων. (EL)
The continuous development of computer science, has led to a rapid increase in the amount of data that are constantly being stored at various data centers around the world. It is a fact, that this data contains tremendously valuable information. A most interesting assortment of engines, libraries and techniques for big data analytics is available for every user who wish to extract this valuable information in order to reach some potentially groundbreaking results. Nevertheless, due to the size and complexity of this assortment, it is practically impossible for a non expert user to identify the optimal combination, based on his goal and resources. The purpose of this thesis is to contibute to the design and implementation a system that takes as input from a user, or another system, the available resources, the type of the application and the desired result, as far as optimizing various performance metrics is concerned (e.g. minimize execution time). Based on this input, it will be able to derive, according to a collection of models, the optimal way of executing the particular job. This study is focused into join algorithms as far as the application is concerned. This goal is achieved by implementing various join algorithms for various execution engines. The profiling of the cost and performance of these join algorithms for different configurations, is what follows. Finally, taking the results into consideration, the appropriate surrogate models are created in order for the system to be able to achieve it’s functionality. This thesis is part of an adaptive and scalable analytics platform, ASAP. In more detail, it is a part of an intelligen (EN)


Πρόβλεψη επίδοσης (EL)
Αλγόριθμοι συνένωσης (EL)
Μοντελοποίηση (EL)
Μεγάλου όγκου δεδομένα (EL)
Εξόρυξη δεδομένων (EL)
IReS (EN)
Performance prediction (EN)
Big data (EN)
Join algorithms (EN)
Performance modelling (EN)
ASAP (EN)

Ελληνική γλώσσα

Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Τομέας Τεχνολογίας Πληροφορικής και Υπολογιστών. Εργαστήριο Υπολογιστικών Συστημάτων (EL)

Default License




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.