Predicting Head and Neck Cancer Patients’ Survival Using Computed Tomography-Derived Skeletal Muscle Related Data

This item is provided by the institution :
/aggregator-openarchives/portal/institutions/uoa   

Repository :
Pergamos Digital Library   

see the original item page
in the repository's web site and access all digital files if the item*



Predicting Head and Neck Cancer Patients’ Survival Using Computed Tomography-Derived Skeletal Muscle Related Data

Μουμουλίδης Πάρις (EL)
Moumoulidis Paris (EN)

born_digital_postgraduate_thesis
Διπλωματική Εργασία (EL)
Postgraduate Thesis (EN)

2024


Σκοπός: Η μελέτη στοχεύει στο να προτείνει ένα μοντέλο ταξινόμησης μηχανικής μάθησης ικανό να αναγνωρίζει ασθενείς υψηλού ρίσκου για μειωμένη συνολική επιβίωση, βασιζόμενο μόνο σε δεδομένα σχετικά με τους σκελετικούς μύες από την αξονική τομογραφία, σε ασθενείς με σταδίου 4 καρκίνο της κεφαλής και του τραχήλου. Ως μέρος της μελέτης θα αναπτυχθεί και θα προταθεί μία μέθοδος αυτόματης κατάτμησης της περιοχής ενδιαφέροντος στην αξονική τομογραφία των παρασπονδυλικών μυών (με και χωρίς το περιμυϊκό και ενδομυϊκό λιπώδη ιστό). Στοχεύουμε στο να αναπτύξουμε μια μέθοδο διαλογής των ασθενών υψηλού κινδύνου που θα μπορούσαν να ωφεληθούν από διατροφικές ή άλλες παρεμβάσεις, βασιζόμενη σε δεδομένα σχετικά με τους σκελετικούς μύες από την αξονική τομογραφία, και όχι να πετύχουμε κοντά στο τέλειο αποτελέσματα ταξινόμησης, κάτι που ούτως ή άλλως είναι ουτοπικό εξαιτίας του πολύπλοκου ιατρικού υποβάθρου του προβλήματος που απευθύνουμε. Υλικό και Μέθοδος: Αποκτήσαμε πρόσβαση σε μία συλλογή PET-CT του αρχείου απεικονίσεων καρκίνου της TCIA που περιλάμβανε 298 ασθενείς με ιστολογικώς αποδεδειγμένο καρκίνο της κεφαλής και του τραχήλου. Στη μελέτη συμπεριλάβαμε μόνο ασθενείς σταδίου 4 , με γνωστή πρωτοπαθή εστία και με ελάχιστη περίοδο παρακολούθησης τα 5 έτη, καταλήγοντας έτσι σε 74 ασθενείς. Με την εφαρμογή περαιτέρω κριτηρίων αποκλεισμού στη κατηγορία των ασθενών με καρκίνο του στοματοφάρυγγα δημιουργήθηκαν μικρότερες κοορτές των 47 και 51 ασθενών. Ως πρόωρος θάνατος ορίστηκε ξεχωριστά για ασθενείς με διαφορετική πρωτοπαθή εστία , ο θάνατος όταν η πιθανότητα επιβίωσης στις καμπύλες επιβίωσης ήταν μεγαλύτερη του 75%. Χρησιμοποιήσαμε ακόμη μεθόδους μη επιβλεπόμενης μάθησης προκειμένου να δούμε την έμφυτη τάση των δεδομένων μας για διαχωρισμό σε ομάδες, καθώς και για να τεστάρουμε διαφορετικές στρατηγικές επιλογής χαρακτηριστικών. Τα αποτελέσματα ταξινόμησης μετά την εκπαίδευση των μοντέλων αξιολογήθηκαν τόσο στις εικόνες που είχε γίνει χειροκίνητα η κατάτμηση των περιοχών ενδιαφέροντος των μυών όσο και στις εικόνες με αυτόματη κατάτμηση. Οι ταξινομητές με τα καλύτερα αποτελέσματα αξιολογήθηκαν σχετικά με την ικανότητά τους να κατηγοριοποιούν τους ασθενείς σε υψηλού και χαμηλού ρίσκου με τρόπο ώστε να χωρίζουν σε βαθμό στατιστικά σημαντικό οι καμπύλες επιβίωσης μεταξύ των δύο ομάδων ρίσκου των ασθενών. Η ανάλυση επιβίωσης έγινε χρησιμοποιώντας τις κατά Kaplan-Meier καμπύλες επιβίωσης. Αποτελέσματα: Χρησιμοποιώντας μεθόδους μη επιβλεπόμενης μάθησης παρατηρήσαμε ότι αποκλείοντας ασθενείς με καρκίνο του στοματοφάρυγγα χωρίς πρόωρο θάνατο, υπήρχε μια έμφυτη τάση για σχηματισμό 3 ομάδων (1 με σαφή κυριαρχία των ασθενών χαμηλού ρίσκου και 2 όπου κυριαρχούσαν οι ασθενείς υψηλού ρίσκου). Τα αποτελέσματα επιβλεπόμενης μάθησης ήταν επίσης πολύ ενθαρρυντικά, επιτυγχάνοντας εξαιρετική ευαισθησία διατηρώντας αποδεκτά F1-score. Τα καλύτερα αποτελέσματα επιτεύχθηκαν στην κοορτή με 47 ασθενείς, όταν η εκπαίδευση έγινε χρησιμοποιώντας 7 κύριες συνιστώσες, αφήνοντας για τεστ 30% των δεδομένων, με το καλύτερο μοντέλο να καταφέρνει να αναδείξει τάση διαφοροποίησης των καμπυλών επιβίωσης των δύο ομάδων κινδύνου στο 80% των 40 διαφορετικών διαχωρισμών για εκπαίδευση-αξιολόγηση των δεδομένων. Συμπεράσματα: Η προτεινόμενη μέθοδος αυτόματης κατάτμησης της περιοχής ενδιαφέροντος, εξαγωγής ραδιομικών χαρακτηριστικών και διαστρωμάτωσης κινδύνου των ασθενών είναι πολλά υποσχόμενη, με δυναμικό γενίκευσης, ωστόσο απαιτούνται περισσότερα δεδομένα πριν προταθεί ως χρήσιμος στην κλινική πρακτική βιοδείκτης. (EL)
Objective: The purpose of the project is to propose a machine learning based classification model, able to identify patients in high risk for decreased overall survival based only on CT-derived muscle related data, in patients with stage IV HNSCCs. As part of the project, an automated paravertebral muscle area (with and without intermuscular and intramuscular adipose tissue) segmentation method will be developed and proposed. Our aim will not be to achieve near perfect classification results (something utopic due to the complex medical background of the problem addressed), but to identify possibly high-risk group of patients that may be benefited from targeted nutritional and other interventions. Therefore, we are aiming to develop an automated screening method that will be based on CT-derived muscle related data. Material and Methods: A PET-CT collection, with 298 patients with histologically proven head-and-neck cancer, was retrieved from the cancer imaging archive and was used for the purposes of this pilot study. We included only patients with Stage IV cancer, with known site of the primary tumour and with a minimum follow-up period of 5 years. These inclusion criteria resulted in 74 patients. Further sub-cohorts (with 47 and 51 patients) were created with the application of extra exclusion criteria in the group of patients with oropharyngeal carcinomas. Premature death was defined as death when the survival probability was higher than 75% in the separate, for each primary site, survival curves. Unsupervised machine learning methods were also used to address the separability of our data and to test different feature selection strategies. Classification results after training on both manually and automatically segmented muscle areas were evaluated. Best performing classifiers were tested on a validation set consisted of the three images per patient that had not been used for training. Validation results were tested in terms of classifiers’ ability to separate survival curves of the low-risk and the high-risk group of patients statistically significantly. Survival analysis was performed using Kaplan-Meier survival curves. Results: In unsupervised learning we observed that when excluding patients with OPSCC without premature death, there seemed to be an inherent 3-cluster tendency in our dataset (one cluster with overrepresentation of low-risk patients and two clusters with overrepresentation of high-risk patients). Our classification results were very encouraging, as we managed to train classifiers that served well the screening purposes of the problem addressed, by achieving high recall while maintaining an acceptable F1-score. The best results in the validation set were obtained in the cohort with 47 patients and when classification models were trained with 7 principal components and with a test ratio of 0.3. A soft voting ensemble model achieved to showcase a trend for difference in survival curves between the two risk groups (p-value < 0.1) in 80% of the 40 different train-test splits of the dataset, and to separate statistically significantly the two curves in 65% of the splits. Conclusion: The proposed automatic method for segmentation, radiomic feature extraction and subsequent patient risk stratification, based on CT-derived skeletal muscle related data, constitutes a promising automatic screening method. The fact that results were evaluated on 40 different train-test splits of the dataset and that proposed risk stratification was tested on a validation set using the same risk cut-off points and not always the optimal ones, along with the consistency regarding various classifiers’ performance pave the way for potential generalization. However, more data are needed to establish risk stratification based on CT-derived skeletal muscle related data as a clinically useful biomarker. (EN)

Θετικές Επιστήμες

Θετικές Επιστήμες (EL)
Science (EN)

English

Βιβλιοθήκη και Κέντρο Πληροφόρησης » Βιβλιοθήκη Σχολής Θετικών Επιστημών » Πληροφορική
Σχολή Θετικών Επιστημών » Τμήμα Πληροφορικής & Τηλεπικοινωνιών » ΠΜΣ Επιστήμη Δεδομένων και Τεχνολογίες Πληροφορίας » Κατεύθυνση Βιοπληροφορική-Επιστήμη Βιοϊατρικών Δεδομένων

https://creativecommons.org/licenses/by-nc/4.0/




*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)