Η φυματίωση είναι μια ιδιαίτερα μεταδοτική ασθένεια και παραμένει μια από τις κύριες αιτίες θανάτου από μολυσματικές ασθένειες σε παγκόσμιο επίπεδο. Παρόλο που έχει επιτευχθεί σημαντική πρόοδος στην πρόληψη, τη διάγνωση και τη θεραπεία της νόσου, τα αναφερόμενα περιστατικά παραμένουν αυξημένα, ιδιαίτερα σε περιοχές με περιορισμένη πρόσβαση σε υγειονομική περίθαλψη. Η ραγδαία εξέλιξη της Τεχνητής Νοημοσύνης θα μπορούσε να αποτελέσει ακρογωνιαίο λίθο στην ανάπτυξη και εφαρμογή νέων θεραπευτικών προσεγγίσεων μέσω της δημιουργίας μοντέλων Μηχανικής Μάθησης.
Η παρούσα εργασία στοχεύει στην δημιουργία ενός αποδοτικού μοντέλου Μηχανικής Μάθησης, το οποίο θα προβλέπει την έκβαση της θεραπευτικής αγωγής των ασθενών με φυματίωση. Το μοντέλο αυτό θα μπορούσε να συμβάλλει στην αύξηση των ποσοστών επιτυχίας της θεραπείας και κατ’ επέκταση στον περιορισμό της θνησιμότητας της νόσου, διαμορφώνοντας εξατομικευμένες θεραπευτικές προσεγγίσεις και βοηθώντας στην βελτιστοποίηση της διαχείρισης των διαθέσιμων πόρων.
Για την επίτευξη αυτού του στόχου, εφαρμόστηκαν οι αλγόριθμοι Random Forest (RF) και Support Vector Machines (SVM) σε ένα σύνολο δεδομένων που αποτελούνταν από τα κοινωνικά και δημογραφικά χαρακτηριστικά των ασθενών, καθώς και τις κλινικές πληροφορίες και τα εργαστηριακά δεδομένα που αφορούν την φυματίωση.
Επιπρόσθετα, εξετάστηκε η συνεισφορά της τεχνικής Synthetic Minority Over-sampling Technique (SMOTE) για την αντιμετώπιση της ανισορροπίας των κλάσεων, καθώς και της τεχνικής Information Gain Attribute Evaluation για την εύρεση των βέλτιστων χαρακτηριστικών. Επιπλέον, διενεργήθηκε Supplied test set, χρησιμοποιώντας νέα ανεξάρτητα δεδομένα για την αξιολόγηση της ικανότητας γενίκευσης του μοντέλου που επιλέχθηκε ως πιο αποδοτικό.
Το πιο αποδοτικό μοντέλο ήταν αυτό του SVM, με τη χρήση της τεχνικής SMOTE και την επιλογή της πολυωνυμικής συνάρτησης πυρήνα, χωρίς την εφαρμογή της τεχνικής Information Gain Attribute Evaluation. Το μοντέλο αυτό ταξινόμησε σωστά το 98.21% των δειγμάτων. Για την κλάση του θανάτου, στην οποία επικεντρώνεται η εργασία, το μοντέλο σημείωσε TPR ή Recall 0,858, FPR 0,009, Precision 0,867 και F-Measure 0,862. Για την κλάση της ίασης, το μοντέλο σημείωσε TPR ή Recall 0,991, FPR 0,142, Precision 0,990 και F-Measure 0,990. Συνολικά, ο σταθμισμένος μέσος όρος (weighted average), ο οποίος λαμβάνει υπόψη τον αριθμό των δειγμάτων σε κάθε κλάση, εμφάνισε TPR ή Recall 0,982, FPR 0,134, Precision 0,982 και F-Measure 0,982. Το Supplied test είχε ως αποτέλεσμα τη μείωση της απόδοσης του μοντέλου στην κλάση του θανάτου, αλλά την αύξηση της απόδοσης στην κλάση της ίασης, διατηρώντας τη συνολική απόδοση του μοντέλου ιδιαίτερα ικανοποιητική για τον στόχο της μελέτης.
Συμπερασματικά, τα αποτελέσματα δείχνουν ότι το μοντέλο SVM, σε συνδυασμό με την τεχνική SMOTE και την πολυωνυμική συνάρτηση πυρήνα, αποτελεί την πιο αποτελεσματική προσέγγιση για την πρόβλεψη της έκβασης της θεραπείας της φυματίωσης. Αυτό το μοντέλο θα μπορούσε να διαδραματίσει καθοριστικό ρόλο στη βελτίωση των αποτελεσμάτων της θεραπείας και στον μετριασμό της θνησιμότητας που σχετίζεται με τη φυματίωση, προωθώντας έτσι τις εξατομικευμένες θεραπευτικές στρατηγικές και τη βέλτιστη διαχείριση των διαθέσιμων πόρων.
(EL)
Tuberculosis (TB) is a highly contagious disease and remains one of the leading causes of death from infectious diseases worldwide. Although significant progress has been made in the prevention, diagnosis, and treatment of the disease, reported cases remain high, particularly in areas with limited access to healthcare. The rapid advancement of Artificial Intelligence (AI) holds the potential to serve as a cornerstone in the development and application of new therapeutic approaches through Machine Learning (ML) models.
This study aims to develop an efficient ML model that predicts the outcome of the treatment of TB patients. Such a model could contribute to increasing treatment success rates and, consequently, reducing TB mortality rates by tailoring personalized therapeutic approaches and optimizing the management of available resources.
In pursuit of this objective, the Random Forest (RF) and Support Vector Machines (SVM) algorithms were applied to a data set comprising the social and demographic characteristics of patients, as well as clinical and laboratory information related to TB. In addition, the Synthetic Minority Over-sampling Technique (SMOTE) was examined for its contribution to addressing class imbalance, along with the Information Gain Attribute Evaluation technique for identifying the optimal features. Moreover, a Supplied test set was conducted using new independent data to assess the generalizability of the model.
The most efficient model was the SVM one, using the SMOTE technique and the polynomial kernel function, without the Information Gain Attribute Evaluation technique. This model correctly classified 98.21% of the samples. For the class of death, which is the primary concern of this study, the model achieved a TPR or Recall of 0.858, an FPR of 0.009, a Precision of 0.867, and an F-measure of 0.862. For the recovery class, the model achieved a TPR or Recall of 0.991, an FPR of 0.142, a Precision of 0.990, and an F-measure of 0.990. Overall, the weighted average, which considers the sample distribution across classes, indicated a TPR or Recall of 0.982, an FPR of 0.134, a Precision of 0.982, and an F-measure of 0.982. The supplied test resulted in a decrease in model performance in the death class, while showing an increase in performance in the recovery class. Nevertheless, the overall performance of the model remained highly satisfactory for the objective of this paper.
To conclude, the results indicate that the SVM model, combined with the SMOTE technique and using the polynomial kernel function, represents the most efficient approach for predicting the outcome of TB treatment. This model could play a pivotal role in improving treatment outcomes and mitigating TB-associated mortality, thus advancing personalized therapeutic strategies and resource management.
(EN)