Combining multiple diagnostic tests for classification

Το τεκμήριο παρέχεται από τον φορέα :
Πανεπιστήμιο Αιγαίου   

Αποθετήριο :
Ιδρυματικό Αποθετήριο Ελλάνικος (Hellanicus)   

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*



Combining multiple diagnostic tests for classification

Βαΐκα, Αλεξία Άρτεμις
Baika, Alexia Artemis

Τσιμήκας, Τζων
Χατζησπύρος, Σπύρος
Μπαντής, Λεωνίδας

masterThesis

2019-10-07
2019-10-30T08:57:19Z

Στην παρούσα εργασία έγινε ανάλυση δεδομένων καρκίνου στο συκώτι. Τα δεδομένα συλλέχθηκαν σε νοσοκομείο της πολης Shanghai Cangzheng της Κίνας. Τα δεδομένα αποτελούντούσαν απο 145 άτομα εκ των οποίων 93 είχαν την αρρώστια και 52 ήταν υγειής. Ο στόχος της εργασίας είναι με την χρήση στατιστικού μοντέλου να γίνει σωστή ταξινόμηση των ατόμων σε μια απο τις δυο ομάδες, υγειής-άρρωστος. Για τον σκοπό αυτο χρισημοποιήθηκαν δύο μέθοδοι: Λογιστική παλινδρόμηση και Support Vector Machines. Η Λογιστική παλινδρόμηση είναι μια απο τις πιο δημοφιλές παραμετρικές μεθόδους και το Support Vector Machines έχει την ιδιότητα να ταξινομεί μη γραμμικά δεδομένα με την χρήση των Kernel. Στην περίπτωση που ο αριθμός των ανεξάρτητων μεταβλητών είναι μεγαλύτερος απο τον αριθμό των δεδομένων είναι απαραίτητη η χρήση μεθόδων (όπως subset selection και Lasso) που μειώνουν τον αριθμό των ανεξάρτητων μεταβλητών.
The data that will be analyzed in this thesis is a Liver Cancer data set which was collected at Shanghai Cang-zheng Hospital in China. The data set includes 145 subjects, of which 54 patients have hepatoma, 39 patients have hepatitis and hepatocirrhosis - chronic liver disease and 52 individuals are healthy. To each subject corespondents 236 Markers. For simplicity, we create two types of groups. The first group consists of healthy individuals and the second group consists of diseased patients. The goal is to correctly classify a subject in one of the two classes, diseased-non-diseased. For this classification task we use two supervised classification methods: Logistic Regression and Support Vector Machines. Logistic Regression was developed by David Cox in 1958 and is one of the most traditional parametric classification methods. Support Vector Machines was created by Vladimir Vapnik (1995). It can efficiently perform a non-linear classification using what is called the kernel trick, by mapping the inputs into a high-dimensional feature spaces. In many cases the goal is to develop a model which can explain the relationship between the features and the dependent variable. A severe mathematical problem is when the dimension of the data is greater than the number of the available data points. For this purpose we will describe methods for feature selection and regularization, including subset selection and lasso.

Logistic regression analysis
Medicine--Research--Statistical methods
Machine learning

Tαξινόμηση
λογιστική παλινδρόμηση
μείωση ανεξάρτητων μεταβλητών
Lasso
Classification
SVM

Στατιστική και Αναλογιστικά - Χρηματοοικονομικά Μαθηματικά
aegean
Πανεπιστήμιο Αιγαίου - Σχολή Θετικών Επιστημών - Τμήμα Σ.Α.Χ.Μ.

Default License




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.