Μελέτη Αλγορίθμων μηχανικής μάθησης και εξατομικευμένων αναπαραστάσεων καρκινικών δεδομένων πολλαπλών ομικών επιπέδων (multi‐omics)

This item is provided by the institution :
/aggregator-openarchives/portal/institutions/uoa   

Repository :
Pergamos Digital Library   

see the original item page
in the repository's web site and access all digital files if the item*



Μελέτη Αλγορίθμων μηχανικής μάθησης και εξατομικευμένων αναπαραστάσεων καρκινικών δεδομένων πολλαπλών ομικών επιπέδων (multi‐omics)

Λαμπαδάριος Θεοδόσιος (EL)
Lampadarios Theodosios (EN)

born_digital_postgraduate_thesis
Διπλωματική Εργασία (EL)
Postgraduate Thesis (EN)

2024


Η Βιολογία Συστημάτων και η Βιοπληροφορική μπορούν να προσφέρουν μια ολιστική εικόνα ενός πολύπλοκου βιολογικού συστήματος και να βοηθήσουν στη μελέτη των ασθενειών και την εξατομικευμένη ιατρική. Οι μελέτες multi‐omics προσφέρουν έναν τρόπο να χρησιμοποιηθούν δεδομένα από πολλαπλά κυτταρικά επίπεδα, επιτυγχάνοντας σε πολλές περιπτώσεις καλύτερα αποτελέσματα σε σχέση με μεθόδους single‐omics. Ωστόσο, τα δεδομένα multi‐omics χαρακτηρίζονται από ποικίλες προκλήσεις στον χειρισμό, στο συνδυασμό και την αναπαράσταση τους. Στην παρούσα μελέτη, στόχος μας είναι να μελετήσουμε μια νέα αναπαράσταση χαρακτηριστικών που πιθανώς να μπορεί να πετύχει καλύτερα αποτελέσματα στην ταξινόμηση των καρκινικών και μη καρκινικών δειγμάτων και του σταδίου του όγκου τους. Συγκεκριμένα, στοχεύσαμε στον σχεδιασμό μιας πιο σύνθετης αναπαράστασης χαρακτηριστικών, χρησιμοποιώντας τοπολογικά χαρακτηριστικά από γράφους που κατασκευάστηκαν από δεδομένα multi‐omics, ώστε να πετύχουμε καλύτερα αποτελέσματα στην ταξινόμηση δειγμάτων σε σύγκριση με λιγότερο σύνθετες αναπαραστάσεις χαρακτηριστικών. Στόχος μας ήταν επίσης να κατανοήσουμε σε βάθος τα multi‐omics δεδομένα που χρησιμοποιήσαμε, με τη συμβολή Διερευνητικής Ανάλυσης Δεδομένων και Gene Set Enrichment Analysis (GSEA). Αρχικά, πραγματοποιήθηκε εξόρυξη των απαραίτητων δεδομένων multi‐omics για τον καρκίνο της ουροδόχου κύστης από το The Cancer Genome Atlas Program από τη Genomic Data Commons. Χρησιμοποιήσαμε δεδομένα για την έκφραση mRNA, την έκφραση miRNA και τα δεδομένα μεθυλίωσης του DNA από καρκινικά και μη καρκινικά δείγματα ασθενών με καρκίνο της ουροδόχου κύστης. Επίσης, λάβαμε τα αντίστοιχα κλινικά δεδομένα που χρειαζόμασταν για την ταξινόμηση των δειγμάτων και τη διερευνητική ανάλυση των δεδομένων. Συγκεκριμένα, χρησιμοποιήσαμε το πακέτο Multi‐Omics Factor Analysis (MOFA) για να εκτελέσουμε την διερευνητική ανάλυση, για τον εντοπισμό των διαφορών μεταξύ των καταστάσεων των δειγμάτων και μεταξύ των σταδίων του όγκου, καθώς και για να εντοπίσουμε τις σχέσεις των δεδομένων με τα κλινικά δεδομένα. Επιπλέον, εφαρμόσαμε GSEA για τον εντοπισμό των στατιστικώς σημαντικά συσχετιζόμενων βιολογικών μονοπατιών με τον καρκίνο της ουροδόχου κύστης. Επίσης, εφαρμόσαμε Ανάλυση Κυρίων Συνιστωσών για τη μείωση της διαστατικότητας και δοκιμάσαμε διάφορες μεθόδους επιλογής χαρακτηριστικών για τη δημιουργία των διανυσμάτων χαρακτηριστικών με τις τιμές έκφρασης και την κατασκευή των γράφων. Σε κάθε περίπτωση, δημιουργήσαμε ένα γενικό γράφo χρησιμοποιώντας τα γονίδια με τις μεγαλύτερες τιμές τυπικής απόκλισης ή τα κορυφαία επιλεγμένα γονίδια από την Ανάλυση Διαφορικής Γονιδιακής Έκφρασης και την Ανάλυση Διαφορικής Μεθυλίωσης. Στη συνέχεια, χρησιμοποιήσαμε το γενικό γράφο για την δημιουργία των εξατομικευμένων γράφων, για να ελέγξουμε κατά πόσον μπορούσαν να πετύχουν καλύτερα αποτελέσματα από τα διανύσματα χαρακτηριστικών με τις τιμές έκφρασης. Για τη σύγκριση των επιδόσεων, χρησιμοποιήσαμε διάφορους αλγορίθμους μηχανικής μάθησης, οι οποίοι αξιολογήθηκαν μέσω μετρικών απόδοσης. Όσον αφορά τα αποτελέσματα, παρατηρήσαμε αρκετούς αλγορίθμους με τοπολογικά χαρακτηριστικά γράφων να πετυχαίνουν στατιστικά σημαντικά υψηλότερη απόδοση στην ταξινόμηση των καταστάσεων του δείγματος και του σταδίου του όγκου, σε σχέση με τους Stratified και Most Frequent Dummy Classifier, τους οποίους χρησιμοποιήσαμε ως επίπεδο αναφοράς. Πετύχαμε επίσης στατιστικά σημαντικά υψηλότερη απόδοση με τον αλγόριθμο Decision Tree στην ταξινόμηση του σταδίου του όγκου με τέσσερις διαφορετικές τοπολογικές αναπαραστάσεις χαρακτηριστικών, όταν συγκρίθηκαν με τη πλήρη διανυσματική αναπαράσταση. Τέλος, συγκρίναμε τις διανυσματικές αναπαραστάσεις, η μία χωρίς επιλογή χαρακτηριστικών και η άλλη με επιλογή χαρακτηριστικών, αλλά οι διαφορές δεν ήταν στατιστικά σημαντικές. (EL)
Systems Biology and Bioinformatics can offer a holistic view of the complex biological system and help the study of diseases and personalized medicine. Multi‐omics offer a way to use data from multiple omic levels and to benefit from the combination of the different molecular layers of a cell, in many cases, achieving better results than single‐omics. However, there are several challenges in the handling, integration, and representation of the multi‐omics data. In this study, we aim to study a new feature representation that possibly can achieve better results in the classification of samples between the state of the samples and their tumor stage. Specifically, we aim to use a more complex feature representation employing topological features from graphs that were constructed from multi‐omics data to achieve better results in sample classification tasks compared to less complex feature representations. We also aim to understand in depth the multi‐ omics data that we used, by applying exploratory analysis and Gene Set Enrichment Analysis (GSEA). First, we obtained the necessary multi‐omics data from The Cancer Genome Atlas Program via the Genomic Data Commons database. This included data on mRNA expression, miRNA expression, and DNA methylation from both tumor and normal tissue samples of patients with bladder cancer. Additionally, we acquired the corresponding clinical data needed for sample classification and exploratory analysis. Specifically, we used the Multi‐Omics Factor Analysis (MOFA) package to perform exploratory analysis, identifying differences between sample states and tumor stages, as well as examining the relationships between the omics data and clinical data. Moreover, we applied GSEA to identify biological pathways significantly associated with bladder cancer. Furthermore, we employed Principal Component Analysis (PCA) to reduce dimensionality and tested various feature selection methods to create feature vectors with expression values and construct the graphs. In each case, we created a general graph using the top genes selected based on standard deviation or the top genes identified through Differential Expression Analysis and Differential Methylation Analysis. We then used the main graph to generate personalized graphs to test whether they could achieve better classification results compared to feature vectors based on expression values. To compare performances, we employed various machine‐learning algorithms and evaluated them using various performance metrics. Several algorithms using topological graph features achieved a better performance in classifying sample states and tumor stages, compared to the Stratified and Most Frequent Dummy Classifiers, which served as baselines. Additionally, the Decision Tree algorithm performed better for tumor stage classification using four different topological representations, compared to the initial full multi‐ omic feature vectors. Lastly, we compared the initial feature vectors—both with and without feature selection—but found no statistically significant differences between them. (EN)

Θετικές Επιστήμες

Θετικές Επιστήμες (EL)
Science (EN)

English

Σχολή Θετικών Επιστημών » Τμήμα Βιολογίας » ΠΜΣ Βιοπληροφορική-Υπολογιστική Βιολογία » Κατεύθυνση Βιοπληροφορική-Υπολογιστική Βιολογία
Βιβλιοθήκη και Κέντρο Πληροφόρησης » Βιβλιοθήκη Σχολής Θετικών Επιστημών

https://creativecommons.org/licenses/by-nc/4.0/




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)