Design of a 32x32 Variable-Packet-Size Buffered Crossbar Switch Chip


This item is provided by the institution :
University of Crete
Repository :
E-Locus Institutional Repository
see the original item page
in the repository's web site and access all digital files if the item*

Semantic enrichment/homogenization by EKT
2004 (EN)
Σχεδίαση του Chip ενός Μεταγωγέα 32x32 Τύπου Buffered Crossbar Πακέτων Μεταβλητού Μεγέθους
Design of a 32x32 Variable-Packet-Size Buffered Crossbar Switch Chip

Σίμος, Δημήτρης (EL)
Simos, Dimitris (EN)

Οι μεταγωγείς και οι δρομολογητές είναι οι βασικοί δομικοί λίθοι των περισσότερων μοντέρνων δικτύων διασύνδεσης και του Internet, στοχεύοντας στην ανταλλαγή πακέτων, ενώ παράλληλα λύνουν τον ανταγωνισμό εξόδου (output contention), το κύριο πρόβλημα της κατανεμημένης, multi-party επικοινωνίας. Το τελευταίο επιλύεται μέσω ενταμίευσης, έλεγχο πρόσβασης, έλεγχο ροής, ή απώλεια πακέτων. Οι μοντέρνοι μεταγωγείς υψηλών επιδόσεων πρέπει να παρέχουν συνολικές παροχές της τάξης του terabit/sec, κάτι το οποίο αποτελεί πρόκληση, τόσο για την σχεδίαση της αρχιτεκτονικής, όσο και για την υλοποίησή τους. Ο σκοπός αυτής της εργασίας είναι η απόδειξη της επιτευξιμότητας σχεδίασης μίας πρωτοποριακής οργάνωσης μεταγωγέα τύπου buffered crossbar, η οποία χειρίζεται απευθείας πακέτα μεταβλητού μεγέθους. Η λειτουργία αυτή, συνδιαζόμενη με την ύπαρξη κατανεμημένης δρομολόγησης (scheduling), αφαιρεί την ανάγκη για εσωτερική επιτάχυνση (internal speedup), με αποτέλεσμα τη πλήρη αξιοποίηση της εισερχόμενης παροχής. Αποδείξαμε την επιτευξιμότητα της πρωτοποριακής αυτής αρχιτεκτονικής μέσω της σχεδίασης ενός τέτοιου μεταγωγέα τύπου buffered crossbar, μεγέθους 32x32, σε ένα ASIC chip core, με συνολική εισερχόμενη παροχή 300 Gbit/sec, σε τεχνολογία 0.18 μm, ή ακόμα μεγαλύτερη με χρήση καλύτερων και πιο μοντέρνων τεχνολογιών. Ο μεταγωγέας συνθέθηκε (synthesized) και τοποθετήθηκε & διασυνδέθηκε (placed & routed) ακολουθώντας μία τυπική ιεραρχική διαδικασία (hierarchical flow), με αποτέλεσμα ένα core επιφάνειας 420 μμ^2 και κατανάλωσης 6 W, σε τεχνολογία CMOS 0.18 μm. Η αντίστοιχη επιφάνεια στα 0.13 μm είναι μόλις κάτω από 200 μμ^2, ενώ η κατανάλωση είναι 3.2 W. Η εκτίμηση της ισχύος έδειξε ότι η πλειονότητά της καταναλώνεται στην οδήγηση μακρών καλωδίων απ'άκρη σ'άκρη του chip core, σε αντίθεση με τις μνήμες και τη λογική, που αποτελούν τη μειονότητα της κατανάλωσης ισχύος. Οι ιεραρχικές διαδικασίες σε ASICs είναι δύσκολες στη χρήση, αλλά ήταν απαραίτητες λόγω του μεγάλου μεγέθους του κυκλώματος. Παρουσιάζουμε με λεπτομέρεια τη σχεδίαση του συστήματος (διαγράμματα block και σημαντικές λεπτομέρειες των κυκλωμάτων), ακολουθούμενα από λεπτομερή περιγραφή της διαδικασίας σχεδίασης, συμπεριλαμβανομένων των περιπλοκών και των μαθημάτων που μάθαμε. Συγκεκριμένα, περιγράφουμε την επιλογή της κατάλληλης ιεραρχίας για αποτελεσματική σύνθεση, τοποθέτηση, διασύνδεση και αποτελέσματα χρονισμού. Τα τελικά αποτελέσματα τοποθέτησης και διασύνδεσης έδειξαν ότι το εργαλείο σύνθεσης είχε υποεκτιμήσει την επιφάνεια του κυκλώματος κατά 30%, λόγω της κυριαρχίας των μακρών (απ'άκρη σ'άκρη) καλωδίων του core. (EL)
Switches and routers are the basic building blocks of most modern interconnections and of the Internet, aiming at providing datapath connectivity, while solving output contention, the major problem of distributed multi-party communication. The latter is accomplished through buffering, access control, flow control, or datagram dropping. Modern high-end switches are called upon to provide aggregate throughputs in the terabit per-second range, which greatly challenges both their architecture and implementation technology. The aim of this work is to prove the feasibility of a novel buffered crossbar organization, operating directly on variable-size packets. Such operation, combined with distributed scheduling, removes the need for internal speedup, thus fully utilizing the incoming throughput. We proved the feasibility of this novel architecture by fully designing such a 32x32 buffered crossbar, in the form of an ASIC chip core, providing 300 Gbit/sec of aggregate bandwidth in 0.18 um technology, or higher throughput in more advanced technologies. The design was synthesized, placed, and routed, using a hierarchical ASIC flow, resulting in a 420 mm2, 6 Watt core in 0.18 um CMOS technology. In 0.13 um CMOS, area would be reduced to 200 mm2, and power consumption to 3.2 W. Power estimation showed that the majority of power is consumed in driving cross-chip wires, while memories and logic are minority consumers. Hierarchical ASIC flows are difficult to use, but became necessary due to the large size of the design. We present the detailed system design (block diagrams as well as critical circuit details), followed by a detailed description of the design flow, including its numerous intricacies and the lessons that we learnt. In particular, we describe the choice of a hierarchy that is appropriate for effective placement, routing, and timing behavior. The final placement and routing showed that the synthesis tool had underestimated the design area by 30%, due to the dominance of long (end-to-end) wires in this design. (EN)


Πανεπιστήμιο Κρήτης (EL)
University of Crete (EN)


*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)