Γραμμικές και μη γραμμικές μέθοδοι εκμάθησης πολλαπλοτήτων αναγωγής δεδομένων μεγάλης κλίμακας

see the original item page
in the repository's web site and access all digital files if the item*



Γραμμικές και μη γραμμικές μέθοδοι εκμάθησης πολλαπλοτήτων αναγωγής δεδομένων μεγάλης κλίμακας (EL)

Μπούλιαρη, Ισμήνη (EL)
Bouliari, Ismini (EN)

ntua (EL)
Σιέττος, Κωνσταντίνος (EL)
Ματσόπουλος, Γεώργιος (EL)
Κομίνης, Ιωάννης (EL)

bachelorThesis

2017-05-19
2017-05-19T12:16:43Z
2017-03-07


Εφαρμογή μαθηματικών μεθόδων εκμάθησης πολλαπλοτήτων για την αναγωγή δεδομένων μεγάλης κλίμακας με εφαρμογές στην τεχνολογία μικροσυστοιχιών. Ο σκοπός της παρούσας διπλωματικής εργασίας είναι η παρουσίαση νέων και αποτελεσματικών αλγορίθμων εκμάθησης πολλαπλοτήτων που βρίσκουν εφαρμογή στη Βιολογία, την Ιατρική και συναφείς επιστήμες και η ανάδειξη της χρησιμότητάς τους στο πεδίο της ανάλυσης μικροσυστοιχιών γονιδίων (mi-croarray analysis). Για την επίτευξη του σκοπού αυτού, αρχικά γίνεται μια σύντομη επισκόπηση του ορισμού της εκμάθησης πολλαπλοτήτων και παρουσίαση κάποιων από τους πιο αντιπροσωπευτικούς και ευρέως χρησιμοποιούμενους αλγορίθμους της, εμβαθύνοντας σε αποδείξεις- μαθηματικές και διαισθητικές. Στη συνέχεια, περιγράφουμε τον τρόπο χρήσης αυτών των αλγορίθμων στην εξόρυξη δεδομένων, πρώτα παραθέτοντας ένα απλό παράδειγμα από τον χώρο των μαθηματικών και κάνοντας μία σύντομη σύγκριση της αποδοτικότητας μερικών από αυτούς. Στο δεύτερο μέρος επικεντρωνόμαστε στην τεχνολογία και την ανάλυση των μικροσυστοιχιών γονιδιακής έκφρασης. Δίνεται μία σύντομη περιγραφή των βιολογικών διαδικασιών στις οποίες βασίζεται η τεχνολογία μικροσυστοιχιών. Οι πληροφορίες αυτές είναι απαραίτητες σε έναν αναγνώαστη, μη εξοικειωμένο με τον χώρο της Βιολογίας, ώστε να μπορεί να κατανοήσει σε μεγαλύτερο βαθμό τη συνέχεια της εργασίας. Επιπλέον, γίνεται- για λόγους πληρότητας- μια λεπτομερής αναφορά τόσο στην τεχνολογία και στον τρόπο κατασκευής μιας μικροσυστοιχίας γονιδιακής έκφρασης (η οποία είναι πολύ εξειδικευμένη και μπορεί να παραληφθεί), όσο και στην μαθηματική επεξεργασία που πρέπει να εφαρμοστεί στα δεδομένα ώστε να είναι ικανά να παρέχουν κατά το δυνατόν ακριβέστερα αποτελέσματα, όταν τα αναλύσουμε με κάποιον αλγόριθμο αναγωγής μεγάλης κλίμακας. Επικεντρωνόμαστε στις μικροσυστοιχίες της Affymetrix, της οποίας χρησιμοποιούμε το πρωτόκολλο στο πειραματικό μέρος της εργασίας. Το τελευταίο κεφάλαιο βασίζεται στη δημοσίευση των Dawson, Rodriguez και Malyj (Dawson et al. 2005). Με την αναπαραγωγή ενός μέρους των αποτελεσμάτων των τελευταίων, αποδεικνύεται πως ο αλγόριθμος Isomap-όπως αυτός εφαρμόζεται σε μία τέτοια μικροσυστοιχία- μπορεί να ανταποκριθεί άψογα στην πρόκληση της ανακάλυψης υποκείμενων δομών στα βιολογικά δεδομένα. Με άλλα λόγια, γίνεται σαφές οτι ο Isomap αποτελεί έναν αποτελεσματικό αλγόριθμο αναγωγής δεδομένων μεγάλης κλίμακας, ο οποίος μπορεί 3 να αποδειχτεί ένα ισχυρό εργαλείο στην ανάλυση βιολογικών/ιατρικών δεδομένων. Παραθέτουμε, τέλος, παράρτημα που περιλαμβάνει κάποιες παραπάνω πληροφορίες για τους αλγόριθμους που αναφέρονται ακροθιγώς στην εργασία και τη σχετική βιβλιογραφία σε αλφαβητική σειρά. (EL)
The purpose of this study is to present new and effective manifold learning algorithms that can be applied in Biology, Medicine and related science fields and to highlight their utility in the field of microarray analysis. To achieve this goal, in the first part, we give the definition of the manifold and we present some of the most famous and frequently used linear (PCA, MDS) and non-linear (LLE, Isomap , Spectral Clustering , Diffusion Maps) dimensionality reduction methods. In order to gain insight to the core of dimensionality reduction methods, we also give both intuitive and mathematical proof for some of them. Furthermore, we compare their efficiency by applying them on the Swiss roll benchmark problem. In the second part, we focus on the technology and the analysis of gene expression microarrays. We use Affymetrix’ s GeneChip ® microarrays and shortly describe their construction method. We give little biological information, which is essential to a reader unfamiliar with the field of Biology, in order to be able to deeply understand the rest of this study. We describe the entire process, from the manufacture of the chip until the export of the raw intensity values, which are to be analyzed. Moreover, we reproduce the results step by step of such an experiment with the Isomap algorithm, proving that it can perfectly respond to the challenge of finding interesting structures in big biological data sets and provide important and essential information about the importance of those structures in different biological procedures. In this way, the Isomap algorithm is proved to be one of the most effective algorithms for the analysis of large data sets, such as gene expression microarrays. In the end of this paper, one can find the relevant bibliography. (EN)


Dimensionality reduction (EL)
Γραμμικές (EL)
Μικροσυστοιχίες (EL)
Μη γραμμικές (EL)
Εκμάθηση πολλαπλοτήτων (EL)
Αναγωγή δεδομένων μεγάλης κλίμακας (EL)
Γονιδιακή έκφραση (EL)
Microarrays (EN)
Machine learning (EN)
PCA (EN)
ISOMAP (EN)

Greek

Εθνικό Μετσόβιο Πολυτεχνείο. Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών. Τομέας Μηχανικής (EL)

Default License




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)