Ο Τριπλά Αρνητικός Καρκίνος του Μαστού αποτελεί έναν υποτύπο του καρκίνου του μαστού, στον οποίο υποεκφράζονται ο υποδοχέας των οιστρογόνων (ER), ο υποδοχέας της προγεστερόνης (PR) και ο υποδοχέας που είναι υπεύθυνος για την ενίσχυση του ανθρώπινου επιδερμικού παράγοντα ανάπτυξης (HER2). Η ανάπτυξη αποτελεσματικών μεθόδων διάγνωσης και θεραπείας για τον TNBC παραμένει μία από τις μεγαλύτερες προκλήσεις στον τομέα της ογκολογίας. Η μηχανική μάθηση, δηλαδή η ανάπτυξη αλγορίθμων και στατιστικών μοντέλων που επιτρέπουν στους υπολογιστές να μαθαίνουν από τα δεδομένα και να κάνουν προβλέψεις ή να παίρνουν αποφάσεις με βάση αυτά, χωρίς να είναι ρητά προγραμματισμένοι για κάθε επιμέρους εργασία, αναδεικνύεται ως ένα ισχυρό εργαλείο στην αντιμετώπιση αυτής της πρόκλησης. Η ενσωμάτωση της μηχανικής μάθησης στο πεδίο της βιολογίας έχει επιδείξει εντυπωσιακά αποτελέσματα στην γονιδιωματική ανάλυση για την έρευνα ασθενειών πετυχαίνοντας έγκαιρη και ακριβή πρόβλεψη και διάγνωση πολλών ασθενειών, βελτιώνοντας σημαντικά τη λήψη κλινικών αποφάσεων.
Στο πλαίσιο αυτής της διπλωματικής εργασίας έγινε προσπάθεια ενσωμάτωσης δεδομένων μικροσυστοιχιών γονιδιακής έκφρασης και βιολογικών οντολογικών όρων για την εκπαίδευση αλγορίθμων μηχανικής μάθησης που θα κατηγοριοποιούν ασθενείς με βάση συγκεκριμένο τύπο καρκίνου του μαστού. Οι κλάσεις κατηγοριοποίησης είναι η TNBC και η Non-TNBC. Οι αλγόριθμοι μηχανικής μάθησης εκπαιδευτήκαν χρησιμοποιώντας μεταγραφικά δεδομένα γονιδίων που βρέθηκαν να παίζουν σημαντικό ρόλο στον TNBC (υπογραφή γονιδίων TNBC) καθώς και μεταγραφικά δεδομένα της IRE1 υπογραφής (IRE1sign38). Η πρωτεΐνη αυτή έχει αποδειχθεί ότι αποτελεί ισχυρό βιολογικό δείκτη για πολλούς σπάνιους και επιθετικούς καρκίνους όπως ο TNBC, στον οποίο η υψηλή IRE1 δραστηριότητα έχει συνδεθεί με την επιθετικότητα του και με την δυσμενή πιθανότητα ολικής επιβίωσης, μέσω του μονοπατιού IRE1-XBP1. Για την εξαγωγή της γονιδιακής υπογραφής του TNBC, πραγματοποιήσαμε ανάλυση διαφορικής έκφρασης γονιδίων και στη συνέχεια πραγματοποιήσαμε λειτουργική ανάλυση εμπλουτισμού για τον προσδιορισμό των σημαντικότερων γονίδιων με βάση τις λειτουργίες και τα μοριακά μονοπάτια στα οποία συμμετέχουν και τα οποία περιγράφουν τα φαινοτυπικά χαρακτηριστικά της ασθένειας. Τα αποτελέσματα για την IRE1 δραστηριότητα και των XBP1 και RIDD συνιστωσών της, μετατράπηκαν σε ετικέτες διαστρωμάτωσης ασθενών ανάλογα με τη δραστηριότητα κάθε δείγματος, ώστε να χρησιμοποιηθούν σαν επιπλέον χαρακτηριστικά εκπαίδευσης του αλγορίθμου μηχανικής μάθησης. Στο τελικό στάδιο της εργασίας εκπαιδεύσαμε διάφορους αλγόριθμους ταξινόμησης, μεταξύ των οποίων οι Random Forest και Generalized Linear Models (Lasso and Elastic-Net Regularized) παρουσίασαν τις πιο υποσχόμενες επιδόσεις. Στη συνέχεια χρησιμοποιώντας μόνο τα πιο σημαντικά χαρακτηριστικά εκπαίδευσης, βελτιώσαμε σημαντικά την απόδοση πρόβλεψης αυτών των αλγορίθμων καταλήγοντας στα δύο επικρατέστερα μοντέλα κατηγοριοποίησης: “RF_Top_50” και “GLM.4”. Τα ευρήματα μας αποκάλυψαν την κρισιμότητα των γονιδίων-κόμβων που προέκυψαν από τη λειτουργική ανάλυση καθώς και τη σημασία της σηματοδοτικής δραστηριότητας της IRE1 πρωτεΐνης στον TNBC, γεγονός που ενισχύει τον ισχυρισμό του σημαντικού βιολογικού δείκτη πρόγνωσης. Η περεταίρω βελτίωση ορισμένων τεχνικών ανάλυσης και η ενσωμάτωση επιπλέον omics δεδομένων ή/και οντολογικών όρων λειτουργιών και μοριακών μονοπατιών, θα μπορούσε να θέσει τα μοντέλα που αναπτύξαμε, ως ισχυρά εργαλεία στα χέρια της ιατρικής κοινότητας, για την πρόγνωση και την ανάπτυξη θεραπευτικών στρατηγικών για τους καρκίνους του μαστού, όπως ο TNBC.
(EL)
Triple-negative breast cancer is a subtype of breast cancer in which the estrogen receptor (ER), progesterone receptor (PR) and the receptor responsible for enhancing human epidermal growth factor (HER2) are downregulated. The development of effective diagnostic and therapeutic methods for TNBC remains one of the greatest challenges in the field of oncology. Machine learning is emerging as a powerful tool in addressing this challenge, focusing on developing algorithms and statistical models that allow computers to learn from data and make predictions or decisions based on the data, without being explicitly programmed for each task. The integration of machine learning into the field of biology has demonstrated impressive results such as in genomic analysis for disease research, achieving early and accurate prediction and diagnosis of many diseases and greatly improved clinical decision making.
In this thesis, an attempt was made to integrate gene expression microarray data and biological ontological terms to train machine learning algorithms capable of categorizing patients based on a specific type of breast cancer. The two classes of classification are TNBC and Non-TNBC. The machine learning algorithms were trained using transcriptomic data of genes identified as important in TNBC (TNBC gene signature) and transcriptomic data of the IRE1 signature (IRE1sign38). This protein has been shown to be a powerful biological marker for many rare and aggressive cancers. Its high activity has been associated with increased cancer aggressiveness and a lower overall survival probability, via the IRE1-XBP1 pathway. To derive the gene signature of TNBC, we first performed a differential expression analysis and then we performed functional enrichment analysis to identify the most important genes based on the processes and molecular pathways in which they participate and describe the phenotypic characteristics of TNBC. The results for IRE1 activity and its XBP1 and RIDD components were converted into patient stratification labels according to the activity of each sample, to be used as additional training features of the machine learning algorithm. In the final stage of the study, we trained enough classification algorithms. Among these, Random Forest and Generalized Linear Models (Lasso and Elastic-Net Regularized) showed the most promising performances. Then, using only the most important training features, we significantly improved the prediction performance of these algorithms, resulting in the two most dominant categorization models: 'RF_Top_50' and 'GLM.4'. Our findings revealed the significance of the hub genes derived from the functional analysis and the importance of the signaling activity of IRE1 protein in TNBC, which makes it a powerful biological marker for the prognosis of this cancer type. By refining certain analysis techniques and incorporating additional omics data and ontological terms of processes and molecular pathways, the models we developed can provide a powerful tool in the hands of the medical community for the prognosis and development of therapeutic strategies for breast cancers, such as TNBC.
(EN)