BDDT-SCC : A task-parallel runtime for the Single-chip Cloud computer


This item is provided by the institution :
University of Crete
Repository :
E-Locus Institutional Repository
see the original item page
in the repository's web site and access all digital files if the item*

Semantic enrichment/homogenization by EKT
2013 (EN)
BDDT-SCC : ένα task-parallel σύστημα χρόνου εκτέλεσης για τον επεξεργστή Single-chip Cloud
BDDT-SCC : A task-parallel runtime for the Single-chip Cloud computer

Λαμπρινέας, Αλέξανδρος

Πρατικάκης, Πολύβιος
Μπίλας, Άγγελος

Η εργασία αυτή παρουσιάζει το BDDT-SCC, ένα task-parallel σύστημα χρόνου εκτέλεσης για τον επεξεργαστή Intel Single-Chip Cloud. Το σύστημα χρόνου εκτέλεσης BDDT-SCC περιλαμβάνει δυναμική ανάλυση εξαρτήσεων και αυτόματο συγχρονισμό και εκτελεί OpenMP-Ss tasks σε μία αρχιτεκτονική με μη συνεκτικές κρυφές μνήμες. Σχεδιάζουμε ένα σύστημα χρόνου εκτέλεσης το οποίο χρησιμοποιεί γρήγορη ενδοεπικοινωνία με μικρά μηνύματα ανάμεσα στους πυρήνες μέσα στο ολοκληρωμένο κύκλωμα. Την ίδια στιγμή, χρησιμοποιούμε μη συνεκτική κοινόχρηστη μνήμη για να αποφύγκουμε μεγάλες μεταφορές δεδομένων από πυρήνα σε πυρήνα, οι οποίες θα επιβαρύνονταν από υψηλή ποσότητα μη αναγκαίων αντιγραφών. Αξιολογούμε το BDDT-SCC με μια συλλογή από αντιπροσωπευτικές εφαρμογές, όσον αφορλά την λεπτότητα καταμεριστμού εργασίας, την τοπικότητα και την επικοινωνία. Βρίσκουμε ότι η τοπικότητα και η κατανομή μνήμης παίζουν πολύ σημαντικό ρόλο στην επίδοση, καθώς η αρχιτεκτονική των ελεγκτών μνήμης του επεξεργαστή SCC μπορεί να δημιουργήσει έντονα φαινόμενα ανταγωνισμού. Προτείνουμε πρακτικές που βελτιώνουν την τοπικότητα μνήμης και κατά συνέπεια την επίδοση των εφαρμογών, και μετράμε την επίδρασή τους. (EL)
This thesis presents BDDT-SCC, a task-parallel runtime system for the Intel Single-Chip Cloud Computer. The BDDT-SCC runtime includes a dynamic dependence analysis and automatic synchronization, and executes OpenMP-Ss tasks on a non cache-coherent architecture. We design a runtime that uses fast on-chip inter-core communication with small messages. At the same time, we use non coherent shared memory to avoid large core-to-core data transfers that would incur a high volume of unnecessary copying. We evaluate BDDT-SCC on a set of representative benchmarks, in terms of task granularity, locality, and communication. We find that memory locality and allocation plays a very important role in performance, as the architecture of the SCC memory controllers can create strong contention effects. We suggest patterns that improve memory locality and thus the performance of applications, and measure their impact. (EN)


Πανεπιστήμιο Κρήτης (EL)
University of Crete (EN)


*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)