Πολυδιάστατες υπολογιστικές μέθοδοι για την μοντελοποίηση της διάγνωσης, πρόγνωσης και θεραπείας του καρκίνου

 
Το τεκμήριο παρέχεται από τον φορέα :

Αποθετήριο :
Ιδρυματικό Αποθετήριο Ολυμπιάς
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2020 (EL)

Πολυδιάστατες υπολογιστικές μέθοδοι για την μοντελοποίηση της διάγνωσης, πρόγνωσης και θεραπείας του καρκίνου (EL)
Multidimensional computational methods for modeling cancer diagnosis, prognosis and treatment (EN)

Kourou, Konstantina (EN)

Παπαλουκάς, Κωνσταντίνος (EL)
Πανεπιστήμιο Ιωαννίνων. Σχολή Επιστημών Υγείας. Τμήμα Βιολογικών Εφαρμογών και Τεχνολογιών (EL)
Kourou, Konstantina (EN)

Η παρούσα διατριβή πραγματεύεται τη μοντελοποίηση της διάγνωσης, της πρόγνωσης και της θεραπείας του καρκίνου, αναλύοντας και εφαρμόζοντας ευρέως χρησιμοποιούμενες υπολογιστικές προσεγγίσεις οι οποίες μπορούν αποτελεσματικά να συμβάλουν στην έρευνα για τη διαχείριση του καρκίνου, την ογκολογία και την ιατρική ακριβείας. Κύριος στόχος αυτής της διατριβής είναι να μελετήσει και να κατανοήσει περαιτέρω τη μοριακή βάση της εξέλιξης του καρκίνου και την πρόβλεψη κινδύνου συνδυάζοντας τα ιατρικά δεδομένα του ασθενούς με δεδομένα υψηλής απόδοσης. Προς αυτή την κατεύθυνση, επιδιώξαμε να διερευνήσουμε τον τρόπο με τον οποίο η ενσωμάτωση ετερογενών συνόλων δεδομένων που σχετίζονται με την ανάπτυξη του καρκίνου, όπως οι γονιδιωματικές αλλαγές και οι πολυμορφισμοί ενός νουκλεοτιδίου, θα μπορούσε στη συνέχεια να επιτρέψει την καλύτερη και πιο έγκυρη ταξινόμηση διαφορετικών φαινοτύπων σχετικών με την εξέλιξη του καρκίνου. Ο τομέας της Συστημικής Βιολογίας έχει αναπτυχθεί σημαντικά τα τελευταία χρόνια και αφορά την ερμηνεία συγκεκριμένων βιολογικών συμβάντων χρησιμοποιώντας τη θεωρία των συστημάτων και των δικτύων. Τα βιολογικά δίκτυα ή δίκτυα γονιδιακής αλληλεπίδρασης, αποτελούν κοινή έννοια στη Συστημική Βιολογία ενώ ταυτόχρονα παρέχουν κρίσιμη πληροφορία σχετικά με τους βιολογικούς μηχανισμούς των υγιών και μη υγιών φαινοτύπων. Στην παρούσα διδακτορική διατριβή, δεδομένα γονιδιακής έκφρασης τα οποία έχουν εξαχθεί από διατάξεις μικροσυστοιχιών, αναλύονται περαιτέρω με στόχο την μοντελοποίηση δικτύων μέσω της τεχνικής των Μπαγιεσιανών (Bayesian) και Δυναμικών Μπαγιεσιανών (Dynamic Bayesian) δικτύων. Απώτερος σ τόχος είναι η ανίχνευση αλληλεπιδράσεων και σχέσεων μεταξύ των γονιδίων, καθώς και η διεξοδική ανάλυση των παραγόμενων δικτύων αλληλεπίδρασης που συμβάλλουν στη διάγνωση και πρόγνωση της ασθένειας του καρκίνου καθώς και στην ταξινόμηση των δειγμάτων σε διαφορετικές κλάσεις. Επιπλέον, μελετήθηκαν και υλοποιήθηκαν σειρά αλγορίθμων Μηχανικής Μάθησης (Machine Learning) με σκοπό την αναπαράσταση της γνώσης και την εξαγωγή συμπερασμάτων αναφορικά με τα κλινικά, ιστολογικά και γενετικά ευρήματα ασθενών σε πρώιμη διάγνωση τα οποία αξιοποιήθηκαν περαιτέρω σε μια προσπάθεια δημιουργίας μοντέλων πρόβλεψης στην κλινική πρακτική και την ενίσχυσης της κατανόησής μας για την ανάπτυξη λεμφώματος. Το πρώτο μέρος της διατριβής αναφέρεται στις αλληλεπιδράσεις των μορίων και ιδιαίτερα των διαφορικά εκφρασμένων γονιδίων (differentially expressed genes) που συμβάλλουν στην διάγνωση και εξέλιξη της νόσου του καρκίνου. Με βάση αυτή την γνώση, ο προσδιορισμός και η αναγνώριση των διαφορικά εκφρασμένων γονιδίων και των σχετικών μοριακών μονοπατιών στα οποία συμμετέχουν είναι μεγάλης σημασίας. Εκμεταλλευτήκαμε τα σημαντικά ως προς την έκφρασή τους γονίδια για να πραγματοποιήσουμε περαιτέρω ανάλυση των βιολογικών μονοπατιών. Σύμφωνα με τα αποτελέσματα, προσδιορίσαμε σημαντικές βιολογικές οδούς στις οποίες τα γονίδια που σχετίζονται με την ανάπτυξη καρκίνου έχουν αναγνωριστεί ως έντονα εμπλουτισμένες και συμμετέχουν σε αυτές. Με βάση την ανάλυση που πραγματοποιήθηκε, προτείναμε μεθοδολογία για την πρόβλεψη της υποτροπής του καρκίνου του στόματος χρησιμοποιώντας Δυναμικά Μπαγιεσιανά δίκτυα. Η προτεινόμενη μεθοδολογία δέχεται ως είσοδο δεδομένα έκφρασης γονιδίων από διάφορες χρονικές στιγμές προκειμένου να προβλέψει την υποτροπή της νόσου. Στη συνέχεια και βάσει της μεθόδου των δυναμικών δικτύων, μπορούμε να εξάγουμε υποθέσεις για τις αιτιώδεις αλληλεπιδράσεις μεταξύ των γονιδίων σε διαδοχικά χρονικά διαστήματα. Επιτεύχθηκε έτσι η ανάπτυξη έγκυρων και ακριβών μοντέλων πρόβλεψης με αναφορά στα δεδομένα που αποκτήθηκαν από το επίπεδο των βιολογικών μονοπατιών στα οποία συμμετέχουν τα γονίδια προς μελέτη. Tα δεδομένα που αναφέρθηκαν παραπάνω χρησιμοποιήθηκαν ώστε να καθοριστούν η δομή και οι παράμετροι δύο μοντέλων Δυναμικών Μπαγιεσιανών δικτύων που σχετίζονται με την κατάσταση συγκεκριμένων ασθενών, δηλαδή εκείνων που επανεμφάνισαν ή όχι καρκίνο. Οι παράμετροι προσδιορίστηκαν μεταξύ των μεταβλητών του πρώτου χρονικού διαστήματος και κατά τη διάρκεια του πρώτου και δεύτερου διαστήματος. Έτσι, μπορέσαμε να υποθέσουμε σχετικά με τις σχέσεις - αλληλεπιδράσεις μεταξύ των γονιδίων. Επιπλέον, η χαρτογράφηση αυτών των αλληλεπιδράσεων με γνωστές και επαληθευμένες αλληλεπιδράσεις στην βιβλιογραφία είναι σε θέση να προσφέρει καλύτερη εικόνα στις υποκείμενες μοριακές διεργασίες της νόσου. Η συνολική απόδοση των μοντέλων πρόβλεψης ήταν ίση με 81,8% ακρίβεια και περιοχή κάτω από την ROC καμπύλη ίση με 0.892, αναφορικά με τις γνώσεις που αποκτήθηκαν από την ανάλυση εμπλουτισμού των σηματοδοτικών μονοπατιών. Στην συνέχεια, διερευνήθηκε η ταξινόμηση των ασθενών με καρκίνο σε προκαθορισμένες κλάσεις μέσω προσεγγίσεων που βασίζονται και πάλι στα Δυναμικά Μπαγιεσιανά δίκτυα τα οποία επιτρέπουν τη συνεκμετάλλευση της γνώσης από στατιστικά σημαντικά γονίδια και τα βασικά ρυθμιστικά τους μόρια. Προσδιορίσαμε τα γονίδια που λειτουργούν ως ρυθμιστές και μεσολαβούν στη δραστηριότητα παραγόντων μεταγραφής τα οποία έχουν βρεθεί σε όλους τους υποκινητές της λίστας με τα διαφορικά εκφρασμένα γονίδια. Τα χαρακτηριστικά αυτά χρησιμοποιήθηκαν ως προγενέστερη γνώση στα Δυναμικά Μπαγιεσιανά δίκτυα για τη διάκριση του όγκου από τα υγιή δείγματα. Χρησιμοποιήσαμε τρία σύνολα δεδομένων μικροσυστοιχιών από το αποθετήριο Gene Expression Omnibus (GEO) και πραγματοποιήσαμε αρχικά ανάλυση διαφορικής έκφρασης. Η μετέπειτα ανάλυση των υποκινητών και των σηματοδοτικών οδών των αναγνωρισμένων γονιδίων αποκάλυψε τους βασικούς ρυθμιστές που επηρεάζουν τους μηχανισμούς μεταγραφής των εν λόγω γονιδίων. Εφαρμόσαμε τον προτεινόμενο αλγόριθμο σε επιλεγμένα γονίδια και προσδιορίσαμε τα χαρακτηριστικά που μπορούν να ταξινομήσουν με ακρίβεια τα δείγματα στις ομάδες ελέγχου (controls) και άγριου τύπου (wild type). Τόσο η ακρίβεια όσο και η περιοχή κάτω από την καμπύλη ROC ήταν υψηλές, στηριζόμενοι στα τελικά σύνολα γονιδίων (δηλαδή στα διαφορικά εκφρασμένα γονίδια και τους υποκινητές τους). Συγκεκριμένα, η ακρίβεια κυμάνθηκε μεταξύ 70,8% - 98,5%, ενώ η καμπύλη ROC μεταξύ 0,562 - 0,985. Στο δεύτερο μέρος της διατριβής μελετήσαμε τη συμβολή των προφίλ γενετικής ευαισθησίας σε ασθενείς με σύνδρομο Sjögren. Συνδυάζοντας τα γενετικά δεδομένα με γνωστούς κλινικούς, ιστολογικούς και ορολογικούς παράγοντες κινδύνου, ενισχύσαμε την ακρίβεια της πρόβλεψης ανάπτυξης λεμφώματος σε αυτόν τον πληθυσμό ασθενών. Ο δυνητικός προγνωστικός ρόλος τόσο των γενετικών παραλλαγών όσο και των εργαστηριακών παραγόντων κινδύνου διερευνήθηκε μέσω μεθοδολογίας Μηχανικής Μάθησης, η οποία ενσωματώνει ταξινομητές, όπως ο ταξινομητής Ενίσχυσης Σύστασης (Gradient Boosting - GB) και τα Τυχαία Δέντρα (Random Forests - RFs) με συγκεκριμένα μέτρα εντροπίας. Οι μέθοδοι συνόλου (ensemble) που αναπτύχθηκαν βελτίωσαν την ακρίβεια της ταξινόμησης των ασθενών βάσει προσεγγίσεων ευαίσθητων σε μικρές διακυμάνσεις στη φάση της εκπαίδευσης. Η αξιολόγηση της προτεινόμενης μεθοδολογίας έγινε με διαδικασία διασταυρούμενης επικύρωσης και έδωσε σημαντικά αποτελέσματα ως προς την ακρίβεια, την ευαισθησία και την ειδικότητα (GB: ακρίβεια = 0.7780, RF με ευρετήριο Gini: ακρίβεια = 0.7626, RF με εντροπία: ακρίβεια = 0.7590). Επομένως, τα κλινικά, ιστολογικά και ορολογικά ευρήματα κατά την πρώιμη διάγνωση χρησιμοποιήθηκαν στον σχεδιασμό προγνωστικού μοντέλου που βασίζεται σε τεχνικές Μηχανικής Μάθησης και έχει ως στόχο την εφαρμογή του στην κλινική πράξη ενισχύοντας περαιτέρω την κατανόησή μας για την ανάπτυξη του καρκίνου. Συνοψίζοντας, στην παρούσα διατριβή, μελετήσαμε τις δυνατότητες συνδυασμού δεδομένων μεταγραφής με γνώσεις από σηματοδοτικά μονοπάτια στα οποία συμμετέχουν γονίδια σημαντικά στην εξέλιξη του καρκίνου, με στόχο την διαστρωμάτωση του κινδύνου των ασθενών. Η εφαρμογή νέων μεθόδων ανάλυσης που βασίζονται σε Δυναμικά Μπαγιεσιανά δίκτυα επέτρεψε την ανάπτυξη μοντέλων ικανών να ταξινομήσουν στις επιμέρους ομάδες διαφορετικούς φαινοτύπους με υψηλή ακρίβεια. Δείξαμε επίσης, ότι τα προβλεπτικά μοντέλα που βασίζονται σε τεχνικές Μηχανικής Μάθησης μπορούν να συμβάλουν στην πρόβλεψη της ανάπτυξης του καρκίνου μέσω της ενσωμάτωσης δεδομένων γενωμικής στις υπάρχουσες κλινικές πληροφορίες, συμβάλλοντας έτσι στη βελτίωση της πρόγνωσης και της θεραπείας της νόσου. (EL)
The present thesis deals with the modeling of cancer diagnosis, prognosis and treatment by utilizing and implementing well-established computational approaches that can efficiently and effectively contribute to cancer care research and precision oncology. The main objective of this thesis is to study and further understand the molecular basis underlying cancer progression and risk prediction by combining high-throughput data with patient information. Towards this direction, we seek to investigate how the integration of heterogeneous datasets related to cancer development, such as genomic changes and single nucleotide polymorphisms, could provide subsequently a better understanding on cancer classification and progression based on Dynamic Bayesian Networks (DBNs) and ensemble Machine Learning (ML) methodologies, respectively. The first part of the thesis concerns the interactions of the molecules and especially of differentially expressed genes (DEGs) that contribute to cancer progression. Based on this knowledge the identification of DEGS and their related molecular pathways is therefore of great importance. We exploited DEGs in order to further perform pathway enrichment analysis. According to our results we found significant pathways in which the disease associated genes have been identified as strongly enriched. Based on the performed pathway analysis we further proposed a methodology for predicting oral cancer recurrence using DBNs. The methodology takes into consideration time series gene expression data in order to predict a disease recurrence. Subsequently, we can conjecture about the causal interactions between genes in consecutive time intervals. A considerable overall performance of the predictive models was achieved with reference to the knowledge obtained from the pathway level. Cancer classification through DBN-based approaches that could reveal the importance of exploiting knowledge from statistically significant genes and key regulatory molecules was also explored. We identified the genes that act as regulators and mediate the activity of transcription factors that have been found in all promoters of our list with DEGs. These features serve as potential priors for distinguishing tumour from normal samples using a DBN-based classification approach. We employed three microarray datasets from the Gene Expression Omnibus (GEO) public functional repository and performed differential expression analysis. Promoter and pathway analysis of the identified genes revealed the key regulators which influence the transcription mechanisms of these genes. We applied the DBN algorithm on selected genes and identified the features that can accurately classify the samples into wild type and controls. Both accuracy and area under the receiver operating characteristic (ROC) curve (AUC) were high for the gene sets comprising of the DEGS along with their master regulators. In the second part of the thesis we explored the contribution of the genetic susceptibility patients’ profiles and by combining them with known clinical, histological and serological risk factors we enhanced the accuracy of predicting lymphoma development in this patient population. The potential predictive role of both genetic variants and laboratory risk factors were investigated through a ML-based framework which encapsulated ensemble classifiers, such as Gradient Boosting (GB) and Random Forests (RFs) with Gini and entropy measures. Ensemble methods enhance the classification accuracy with approaches that are sensitive to minor perturbations in the training phase. The evaluation of the proposed methodology based on a 10-fold stratified cross validation procedure yielded considerable results in terms of balanced accuracy. The initial clinical, histological and serological findings at an early diagnosis were exploited to establish ML-based predictive tools in clinical practice and further enhance our understanding towards cancer development. In the present thesis, we studied the potential of integrating transcriptomic data with knowledge from the pathway level to model cancer progression and patient risk stratification. The development and application of novel DBN-based analysis methods allowed to infer models that could classify different phenotypes into groups with high classification accuracy. We also demonstrated that robust ensemble ML-based models could contribute to the prediction of cancer development based on the integration of genotype data along with clinical information; thus, contributing to improved disease prognosis and treatment. (EN)

doctoralThesis

Υπολογιστικές μέθοδοι (EL)
Computational methods (EN)


Αγγλική γλώσσα

2020


Πανεπιστήμιο Ιωαννίνων. Σχολή Επιστημών Υγείας. Τμήμα Βιολογικών Εφαρμογών και Τεχνολογιών (EL)




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.