Analysis and optimizayion of overheads in communication protocols over high speed ethernet-based cluster interconnects

2008 (EN)
Πασσάς, Σταύρος Ιωάννη

Μπίλας, Αντώνης

Στον πυρήνα των σύχρονων υπολογιστικών συστημάτων υψηλής επίδοσης είναι η υποδομή επικοινωνίας. Για αυτόν τον λόγο, έχουν εργαστεί πολλοί άνθρωποι για την δημιουργία υποσυστημάτων επικοινωνίας για συστοιχίες υπολογιστών, με χαρακτηριστικά την χαμηλή καθηστέρηση και την υψηλή ταχύτητα. Σε αυτήν την δουλειά, εισάγουμε το MultiEdge, που είναι ένα βασισμένο σε συνδέσεις, σύστημα επικοινωνίας και είναι ειδικά σχεδιασμένο για υψηλής ταχύτητας καθημερινό εξοπλισμό. Χρησιμοποιούμε το MultiEdge για να εξετάσουμε τη συμπεριφορά των πρωτοκόλλων που εφαρμόζονται μόνο στα άκρα του δικτύου. Εξετάζουμε τις συνέπειες της δημιουργίας μιας λογικής ζεύξης από πολλές φυσικές ζεύξεις και βλέπουμε πως η επίδοση και οι επιβαρύνσεις κλιμακώνονται με των αριθμό των ζεύξεων. Τέλος, εξετάζουμε τα κόστη που σχετίζονται με την αντιγραφή δεδομένων στο εύρος των 15-30 GBits/s. Υλοποιούμε και δείχνουμε την αποτελεσματικότητα τις μεταφοράς δεδομένων, χωρίς την ανάγκη αντιγραφής τους, αναλύοντας την επίπτωση στα επιπρόσθετα κόστη που σχετίζονται με αυτήν την προσέγγιση. Βρήκαμε ότι: (α) Το πρωτόκολλό μας μπορεί να χρησιμοποιήσει περίπου το 99.2% της συνολικής ταχύτητας όταν χρησιμοποιούνται μέχρι 2 φυσικές ζεύξεις. (β) Όταν χρησιμοποιούνται μέχρι 8 φυσικές ζεύξεις, το πρωτόκολλο φτάνει μέχρι το 65% της συνολικής ταχύτητας. (γ) Η επίπτωση των διακοπών και των αντιγραφών δεδομένων είναι σημαντική, και όταν αυτά αφαιρεθούν, το πρωτόκολλο φτάνει το 80% και 100% της συνολικής ταχύτητας αντίστοιχα. (δ) Όταν η αμφίδρομη ταχύτητα ζεύξης είναι κοντά στα 30 GBits/s, οι αντιγραφές δεδομένων περιορίζουν τη ταχύτητα του πρωτοκόλλου περίπου στην τάξη των 8.8 GBits/s στα συστήματά μας. (ε) Η χρησιμοποίηση του μηχανισμού που δεν κάνει αντιγραφές δεδομένων, έχει σαν αποτέλεσμα την βελτίωση της απόδοσης του συστήματος κατα 80-90%, και φτάνει στο 57% της διαθέσιμης αμφίδρομης ταχύτητας. Τέλος, πιστεύουμε οτι η αποδοτική κατανομή του πρωτοκόλλου σε πολλούς επεξεργαστές φαίνεται σαν η κύρια πρόκληση στην επίτευξη υψηλότερων ταχυτήτων στην σύγχρονη αρχιτεκτονική υπολογιστών. (EL)
At the core of contemporary high performance computer systems is the communication infrastructure. For this reason, there has been a lot of work on providing low-latency, high-bandwidth communication subsystems for clusters. In this work, we introduce MultiEdge, a connection oriented communication system designed for high-speed commodity hardware. We use MultiEdge to examine the behavior of edge-based protocols. We examine the implications of building a single logical link out of multiple physical links and we see how overheads and performance scale with the number and speed of links. Finally, we examine the costs associated with data copying at the 15-30 GBits/s range. We implement and show the effectiveness of zero-copy data transfers, analyzing the impact of additional costs associated with this approach. We find that: (a) Our base protocol reaches almost 99.2% of the nominal aggregate throughput for up-to 2 psychical links of 1 GBit/s link rate. (b) When up-to 8 physical links are used, our protocol achieves up-to 65% of the nominal aggregate throughput. (c) The impacts of interrupts and data copies are significant, and when they are removed, protocol reaches 80% and 100% of the nominal throughput respectively. (d) With bi-directional link rates of 30 GBits/s, data copies limits the effective throughput to about 8.8 GBits/s on our systems. (e) The use of our zero-copy mechanism results in 80-90% improvement and reaches up-to 57% of the available bi-directional throughput. Finally, we believe that efficiently distributing protocol processing over multiple host CPUs emerges as the main challenge in achieving higher transfer rates on modern architectures. (EN)

