Βαθιά μεταγραφωματική ανάλυση επιβίωσης ασθενών με μη-μικροκυτταρικό καρκίνο του πνεύμονα χρησιμοποιώντας μεθόδους μηχανικής μάθησης

This item is provided by the institution :
University of Crete   

Repository :
E-Locus Institutional Repository   

see the original item page
in the repository's web site and access all digital files if the item*



Deep radiotranscriptomic survival analysis for non-small cell lung cancer patients by utilizing machine learning methods
Βαθιά μεταγραφωματική ανάλυση επιβίωσης ασθενών με μη-μικροκυτταρικό καρκίνο του πνεύμονα χρησιμοποιώντας μεθόδους μηχανικής μάθησης

Κουτρούμπα, Νικολέττα Μαρία

Ζερβάκης, Μιχαήλ
Μαριάς, Κωνσταντίνος

text
Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης

2022-07-29


Σύμφωνα με τον Παγκόσμιο Οργανισμό Υγείας, ο καρκίνος του πνεύμονα αποτελεί τη μορφή καρκίνου με το υψηλότερο ποσοστό θνησιμότητας παγκοσμίως. Ο καρκίνος του πνεύμονα χωρίζεται σε δύο κατηγορίες, μη-μικροκυτταρικό και μικροκυτταρικό καρκίνο του πνεύμονα, με την πρώτη κατηγορία να κυριαρχεί με ποσοστό 85% των διαγνώσεων καρκίνου του πνεύμονα. Στην πλειοψηφία των ασθενών, η διάγνωση γίνεται μετά την εμφάνιση συμπτωμάτων που σχετίζονται με πρωταρχική ή μεταστατική ασθένεια. Η εξέλιξη της πάθησης χαρακτηρίζεται από πέντε στάδια, από 0 έως IV. Η άμεση διάγνωση και ανάλυση της ασθένειας είναι απαραίτητη για την επιλογή της κατάλληλης θεραπείας. Αρκετές μελέτες συσχετίζουν χαρακτηριστικά που προκύπτουν από ιατρικές εικόνες με τον καρκίνο του πνεύμονα. Η ραδιωμική (radiomics) αφορά στην εξαγωγή μεγάλου αριθμού χαρακτηριστικών από ιατρικές εικόνες με σκοπό τη δημιουργία βάσεων δεδομένων από δεδομένα απεικονιστικών μεθόδων. Τα χαρακτηριστικά της εικόνας μπορούν να χρησιμοποιηθούν για την εύρεση διαγνωστικών και προγνωστικών συσχετισμών σε ασθενείς με καρκίνο του πνεύμονα. Η διαθεσιμότητα δεδομένων ιατρικής εικόνας σε συνδυασμό με την αύξηση μεθόδων βαθιάς μάθησης (deep learning) άνοιξε το δρόμο για την εξαγωγή χαρακτηριστικών υψηλής ποιότητας που θα μπορούσαν να συμβάλλουν στην βαθύτερη κατανόηση της ασθένειας. Επιπλέον, η μεταγραφωματική (transcriptomics) παρέχει σημαντικές πληροφορίες για το γονιδίωμα, βοηθώντας στην κατανόηση των μηχανισμών πίσω από τις βιολογικές διεργασίες του καρκίνου. Αρκετές μελέτες που σχετίζονται με τον καρκίνο στοχεύουν στην εύρεση του χρόνου μέχρι να εμφανιστεί το συμβάν του ενδιαφέροντος. Το συμβάν μπορεί να είναι ο θάνατος του ασθενούς ή η επανεμφάνιση της νόσου ύστερα από μία επιτυχή θεραπεία. Η μοντελοποίηση των δεδομένων χρόνου μέχρι την εμφάνιση του συμβάντος ονομάζεται ανάλυση επιβίωσης (survival analysis) και βρίσκει εφαρμογή στην βιοϊατρική, τη βιοστατιστική, καθώς και σε άλλες επιστήμες, όπως στη μηχανική. Αρκετές μελέτες χρησιμοποιούν δεδομένα από μία μόνο πηγή, όπως ιστολογικά δεδομένα, απεικονιστικά ή μοριακά, για την ανάλυση επιβίωσης ασθενών με καρκίνο. Σκοπός της μεταπτυχιακής εργασίας είναι η ανάλυση επιβίωσης με χρήση μεθόδων μηχανικής μάθησης και χρησιμοποιώντας διαφορετικές πηγές δεδομένων, ραδιωμικής, μεταγραφωματικής και δεδομένων που προέκυψαν από την εφαρμογή μοντέλων βαθιάς μάθησης σε ιατρικές εικόνες (deep features). Το σύνολο των δεδομένων που χρησιμοποιήθηκε περιείχε 211 εικόνες αξονικής τομογραφίας, 130 φορείς RNA-seq και κλινικά δεδομένα με πληροφορίες ιστολογίας, γονιδιώματος, επιβίωσης και υποτροπής της νόσου. Από αυτά τα δεδομένα, ένα υποσύνολο με 40 ασθενείς χρησιμοποιήθηκε για την ανάλυση επιβίωσης. Δύο μέθοδοι μηχανικής μάθησης έχουν χρησιμοποιηθεί ευρέως για την ταξινόμηση ασθενών σε περιπτώσεις υψηλού και χαμηλού κινδύνου, ο αλγόριθμος τυχαίων δασών (random forest) και οι μηχανές διανυσμάτων υποστήριξης (support vector machines). Δύο συνδυασμοί δεδομένων μελετήθηκαν, ο συνδυασμός όλων των δεδομένων (deep radiotranscriptomics) και ο συνδυασμός μόνο δεδομένων radiomics και deep features. Η προτεινόμενη ανάλυση με συνδυασμό όλων των δεδομένων, deep ratiotranscriptomics, οδήγησε σε C-index 0.77 ± 0.10 με μηχανές διανυσμάτων υποστήριξης και 0.74 ± 0.11, με τυχαία δάση. Με συνδυασμό μόνο των δεδομένων radiomics και deep features, οι μηχανές διανυσμάτων υποστήριξης κατέληξαν σε C-index 0.73 ± 0.07 και τα τυχαία δάση σε C-index 0.68 ± 0.03. Ο συνδυασμός όλων των χαρακτηριστικών οδήγησε σε μοντέλα με καλύτερη ικανότητα πρόβλεψης. Τα μοντέλα βαθιάς μάθησης που παρείχαν χαρακτηριστικά υψηλής ποιότητας ήταν τα MobileNet, ResNet, DenseNet και NasNet. Η μελέτη αυτή οδήγησε στο συμπέρασμα ότι η χρήση δεδομένων από διαφορετικές πηγές οδηγεί σε μοντέλα με καλύτερη πρόβλεψη της επικινδυνότητας της νόσου των ασθενών και σε καλύτερη κατηγοριοποίησή τους σε ασθενείς χαμηλού και υψηλού κινδύνου. Τμήματα αυτής της εργασίας περιλαμβάνονται στη δημοσίευση με τίτλο “Deep Radiotranscriptomics of Non-Small Cell Lung Carcinoma for Assessing High-Level Clinical Outcomes using Multi-View Analysis” από τους Τριβιζάκης Ελευθέριος, Κουτρούμπα Νικολέττα Μαρία, Σουγκλάκος Ιωάννης, Καραντάνας Απόστολος, Ζερβάκης Μιχάλης Ε., Μαριάς Κώστας, η οποία βρίσκεται σε στάδιο αξιολόγησης για αποστολή σε επιστημονικό περιοδικό. Λεπτομέρειες σχετικά με παραμέτρους που επιλέχθηκαν και ο κώδικας για την ανάλυση είναι διαθέσιμα διαδικτυακά στο: https://github.com/NikiKou/deep_radiotranscriptomics_survival_analysis. (EL)
According to the World Health Organization, lung cancer is estimated to have the highest mortality rate worldwide. Lung cancer can be divided into two main categories: non-small cell lung carcinoma (NSCLC) and small cell lung carcinoma (SCLC), with the former being the most prevalent type of lung cancer, accounting for approximately 85% of cases. The majority of lung cancer cases are diagnosed after a symptom appears related to primary or metastatic disease. The progression of the disease is typically described using five stages, from 0 to IV. The accurate staging of lung cancer is essential to establishing a prognosis and selecting the optimal treatment. However, staging information is not necessarily predictive of the disease progression or the response to treatment. Several studies have investigated the relationship between image features and lung cancer. Radiomics refers to the extraction of a large number of features from medical images with the intent of creating mineable databases from radiological images. Image features can be used to reveal diagnostic, predictive, and prognostic associations in cancer patients via correlations with other response criteria like survival or response to treatment. The increase in deep learning methods has also paved the way for the extraction of high-dimensional deep features that could capture deeper the cancer information. Furthermore, advances in transcriptomics have provided genome-wide information on gene structure and gene function in order to reveal the mechanisms behind the biological processes of cancer. In many cancer studies, the main outcome under assessment is the time to an event of interest. The event might be the death of the patient, or the recurrence of the disease after successful treatment. The modelling of time to event data is called survival analysis and it has been used in many areas, including the biomedical, social, and engineering sciences. Outcome modelling can be used for the identification of the prognostic signature of patients and the stratification according to their survival time into groups with different risks of experiencing the event. Several studies have been conducted that use single source data to investigate the survival of cancer patients, such as histologic, imaging, or molecular data. This master thesis aims to investigate the synergetic properties of multi-view data sources such as radiomics, transcriptomics, and deep features, in developing machine learning models for survival analysis. The dataset used comprised of 211 Computer Tomography (CT) examinations, 130 RNA-seq vectors () and clinical data with histology, genomic, semantic, survival and disease recurrence information. The intersection of the transcriptomic and imaging data was a subset of 115 patients and the patient cohort of survival included 40 subjects. Two commonly used machine learning methods have been examined for the classification of patients into low- and high-risk, random forest and support vector machine. The feature-fusion strategy included combining all features to perform survival analysis and also combining only radiomics and deep features. The proposed deep radiotranscriptomic analysis resulted in a C-index 0.77 ± 0.10 using support vector machine with Cindex in the range of 0.65 to 0.83. The C-index using random forest classifier was 0.74 ± 0.11, in the range of 0.63 to 0.81. Deep radiotranscriptomic analysis outperformed analyses comprised only of radiomics and deep features. In that case, random forest reached a C-index of 0.68 ± 0.03 and support vector machine a C-index of 0.73 ± 0.07. The deep features that resulted in the best predictions were mostly extracted from MobileNet, ResNet, DenseNet, and NasNet models. Combining imaging information in the form of radiomics and deep features and histologic in the form of transcriptomics improved classification metrics, such as C-index and better ranked the patients according to their risk of experiencing the event. Parts of this work are included in the publication that is under review, entitled "Deep Radiotranscriptomics of Non-Small Cell Lung Carcinoma for Assessing High-Level Clinical Outcomes using Multi-View Analysis" conduced by Trivizakis Eleftherios, Koutroumpa Nikoletta-Maria, Souglakos John, Karantanas Apostolos, Zervakis Michalis E., Marias Kostas. Details regarding the selected parameters and the complete source code of the analysis are provided online at https://github.com/NikiKou/deep_radiotranscriptomics_survival_analysis. (EN)


Transcriptomics
Ραδιωμική
Feature fusion
Deep features
Radiomics

Greek
English





*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)