Η Βιολογία Συστημάτων και η Βιοπληροφορική μπορούν να προσφέρουν μια ολιστική εικόνα ενός
πολύπλοκου βιολογικού συστήματος και να βοηθήσουν στη μελέτη των ασθενειών και την εξατομικευμένη
ιατρική. Οι μελέτες multi‐omics προσφέρουν έναν τρόπο να χρησιμοποιηθούν δεδομένα
από πολλαπλά κυτταρικά επίπεδα, επιτυγχάνοντας σε πολλές περιπτώσεις καλύτερα αποτελέσματα
σε σχέση με μεθόδους single‐omics. Ωστόσο, τα δεδομένα multi‐omics χαρακτηρίζονται από
ποικίλες προκλήσεις στον χειρισμό, στο συνδυασμό και την αναπαράσταση τους.
Στην παρούσα μελέτη, στόχος μας είναι να μελετήσουμε μια νέα αναπαράσταση χαρακτηριστικών
που πιθανώς να μπορεί να πετύχει καλύτερα αποτελέσματα στην ταξινόμηση των καρκινικών
και μη καρκινικών δειγμάτων και του σταδίου του όγκου τους. Συγκεκριμένα, στοχεύσαμε στον
σχεδιασμό μιας πιο σύνθετης αναπαράστασης χαρακτηριστικών, χρησιμοποιώντας τοπολογικά χαρακτηριστικά
από γράφους που κατασκευάστηκαν από δεδομένα multi‐omics, ώστε να πετύχουμε
καλύτερα αποτελέσματα στην ταξινόμηση δειγμάτων σε σύγκριση με λιγότερο σύνθετες αναπαραστάσεις
χαρακτηριστικών. Στόχος μας ήταν επίσης να κατανοήσουμε σε βάθος τα multi‐omics
δεδομένα που χρησιμοποιήσαμε, με τη συμβολή Διερευνητικής Ανάλυσης Δεδομένων και Gene
Set Enrichment Analysis (GSEA).
Αρχικά, πραγματοποιήθηκε εξόρυξη των απαραίτητων δεδομένων multi‐omics για τον καρκίνο
της ουροδόχου κύστης από το The Cancer Genome Atlas Program από τη Genomic Data Commons.
Χρησιμοποιήσαμε δεδομένα για την έκφραση mRNA, την έκφραση miRNA και τα δεδομένα μεθυλίωσης
του DNA από καρκινικά και μη καρκινικά δείγματα ασθενών με καρκίνο της ουροδόχου
κύστης. Επίσης, λάβαμε τα αντίστοιχα κλινικά δεδομένα που χρειαζόμασταν για την ταξινόμηση
των δειγμάτων και τη διερευνητική ανάλυση των δεδομένων.
Συγκεκριμένα, χρησιμοποιήσαμε το πακέτο Multi‐Omics Factor Analysis (MOFA) για να εκτελέσουμε
την διερευνητική ανάλυση, για τον εντοπισμό των διαφορών μεταξύ των καταστάσεων των
δειγμάτων και μεταξύ των σταδίων του όγκου, καθώς και για να εντοπίσουμε τις σχέσεις των δεδομένων
με τα κλινικά δεδομένα. Επιπλέον, εφαρμόσαμε GSEA για τον εντοπισμό των στατιστικώς
σημαντικά συσχετιζόμενων βιολογικών μονοπατιών με τον καρκίνο της ουροδόχου κύστης. Επίσης,
εφαρμόσαμε Ανάλυση Κυρίων Συνιστωσών για τη μείωση της διαστατικότητας και δοκιμάσαμε διάφορες
μεθόδους επιλογής χαρακτηριστικών για τη δημιουργία των διανυσμάτων χαρακτηριστικών
με τις τιμές έκφρασης και την κατασκευή των γράφων.
Σε κάθε περίπτωση, δημιουργήσαμε ένα γενικό γράφo χρησιμοποιώντας τα γονίδια με τις μεγαλύτερες
τιμές τυπικής απόκλισης ή τα κορυφαία επιλεγμένα γονίδια από την Ανάλυση Διαφορικής
Γονιδιακής Έκφρασης και την Ανάλυση Διαφορικής Μεθυλίωσης. Στη συνέχεια, χρησιμοποιήσαμε
το γενικό γράφο για την δημιουργία των εξατομικευμένων γράφων, για να ελέγξουμε κατά πόσον
μπορούσαν να πετύχουν καλύτερα αποτελέσματα από τα διανύσματα χαρακτηριστικών με τις τιμές
έκφρασης. Για τη σύγκριση των επιδόσεων, χρησιμοποιήσαμε διάφορους αλγορίθμους μηχανικής
μάθησης, οι οποίοι αξιολογήθηκαν μέσω μετρικών απόδοσης.
Όσον αφορά τα αποτελέσματα, παρατηρήσαμε αρκετούς αλγορίθμους με τοπολογικά χαρακτηριστικά
γράφων να πετυχαίνουν στατιστικά σημαντικά υψηλότερη απόδοση στην ταξινόμηση των
καταστάσεων του δείγματος και του σταδίου του όγκου, σε σχέση με τους Stratified και Most Frequent
Dummy Classifier, τους οποίους χρησιμοποιήσαμε ως επίπεδο αναφοράς. Πετύχαμε επίσης
στατιστικά σημαντικά υψηλότερη απόδοση με τον αλγόριθμο Decision Tree στην ταξινόμηση του
σταδίου του όγκου με τέσσερις διαφορετικές τοπολογικές αναπαραστάσεις χαρακτηριστικών, όταν συγκρίθηκαν με τη πλήρη διανυσματική αναπαράσταση. Τέλος, συγκρίναμε τις διανυσματικές
αναπαραστάσεις, η μία χωρίς επιλογή χαρακτηριστικών και η άλλη με επιλογή χαρακτηριστικών,
αλλά οι διαφορές δεν ήταν στατιστικά σημαντικές.
(EL)
Systems Biology and Bioinformatics can offer a holistic view of the complex biological system and
help the study of diseases and personalized medicine. Multi‐omics offer a way to use data from
multiple omic levels and to benefit from the combination of the different molecular layers of a cell,
in many cases, achieving better results than single‐omics. However, there are several challenges in
the handling, integration, and representation of the multi‐omics data.
In this study, we aim to study a new feature representation that possibly can achieve better results
in the classification of samples between the state of the samples and their tumor stage. Specifically,
we aim to use a more complex feature representation employing topological features from graphs
that were constructed from multi‐omics data to achieve better results in sample classification tasks
compared to less complex feature representations. We also aim to understand in depth the multi‐
omics data that we used, by applying exploratory analysis and Gene Set Enrichment Analysis (GSEA).
First, we obtained the necessary multi‐omics data from The Cancer Genome Atlas Program via
the Genomic Data Commons database. This included data on mRNA expression, miRNA expression,
and DNA methylation from both tumor and normal tissue samples of patients with bladder cancer.
Additionally, we acquired the corresponding clinical data needed for sample classification and
exploratory analysis.
Specifically, we used the Multi‐Omics Factor Analysis (MOFA) package to perform exploratory
analysis, identifying differences between sample states and tumor stages, as well as examining the
relationships between the omics data and clinical data. Moreover, we applied GSEA to identify biological
pathways significantly associated with bladder cancer. Furthermore, we employed Principal
Component Analysis (PCA) to reduce dimensionality and tested various feature selection methods
to create feature vectors with expression values and construct the graphs.
In each case, we created a general graph using the top genes selected based on standard deviation
or the top genes identified through Differential Expression Analysis and Differential Methylation
Analysis. We then used the main graph to generate personalized graphs to test whether they
could achieve better classification results compared to feature vectors based on expression values.
To compare performances, we employed various machine‐learning algorithms and evaluated them
using various performance metrics.
Several algorithms using topological graph features achieved a better performance in classifying
sample states and tumor stages, compared to the Stratified and Most Frequent Dummy Classifiers,
which served as baselines. Additionally, the Decision Tree algorithm performed better for tumor
stage classification using four different topological representations, compared to the initial full multi‐
omic feature vectors. Lastly, we compared the initial feature vectors—both with and without feature
selection—but found no statistically significant differences between them.
(EN)