Εξόρυξη συχνών προτύπων για την επιλογή πληροφοριακών δεικτών σε δεδομένα πληθυσμιακής γονιδιωματικής

 
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2015 (EL)
Εξόρυξη συχνών προτύπων για την επιλογή πληροφοριακών δεικτών σε δεδομένα πληθυσμιακής γονιδιωματικής

Σαμαράς, Πάτροκλος Ευαγγέλου

In this study a new method for feature selection in population genomic data is proposed. In addition, a thorough evaluation of the other state-of-the-art and baseline methods is performed and finally compared with the proposed method. Nowadays, when the data production rate has far surpassed the processing rate, the need of development of new methods to contribute to the pre-processing and cleaning these raw data, is necessary. As in any sector such as in Biology, and more particularly in Genetics, there is a need to find such methods, which apart from the processing time gain, there is an economic benefit, as in many datasets the large number of features and fields increases their production cost significantly. Bioinformatics, using the knowledge and the technique that the scientific field of Machine Learning provides, has many times in the past and continues still today to provide solutions that will reduce these costs, and at the same time creates new directions and exploration paths. For example, the genotyping of genetic markers is a procedure with increasing cost, depending on the number of loci. The method which is developed in this thesis - FIFS (Frequent Item Feature Selection) - takes advantage of the fields of data mining and set theory, in order to give a small number of features with a discretion to the origin populations of individuals. Through the comparison with other literature methods, in two different datasets (one in human and one in animals), FIFS provides in all cases better results in individuals' assignment to origin populations (classification), using assignment methods commonly used in Genetics.
Αντικείμενο της παρούσας εργασίας είναι η μελέτη και σύγκριση μεθόδων που αφορούν την επιλογή χαρακτηριστικών σε δεδομένα πληθυσμιακής γενετικής, και παράλληλα ο σχεδιασμός, η ανάπτυξη και αξιολόγηση μιας νέας μεθόδου με σκοπό την παραγωγή καλύτερων αποτελεσμάτων. Στη σημερινή εποχή που ο ρυθμός παραγωγής δεδομένων έχει ξεπεράσει κατά πολύ τον ρυθμό επεξεργασίας τους, έχει δημιουργηθεί η ανάγκη για δημιουργία και χρήση μεθόδων που θα συμβάλλουν στην προ-επεξεργασία και τον καθαρισμό των πρωτογενών αυτών δεδομένων. Όπως σε κάθε κλάδο έτσι και στην Βιολογία και πιο συγκεκριμένα στη Γενετική, υπάρχει η ανάγκη για εύρεση τέτοιων μεθόδων, που πέραν του κέρδους ως προς τον χρόνο επεξεργασίας, υπάρχει και οικονομικό κέρδος μιας και σε πολλά σύνολα δεδομένων το μεγάλο πλήθος χαρακτηριστικών και πεδίων αυξάνει σημαντικά το κόστος παραγωγής τους. Η Βιοπληροφορική, με χρήση της γνώσης και της τεχνοτροπίας που παρέχει η μηχανική μάθηση, έχει δώσει κατά καιρούς και συνεχίζει ακόμη να δίνει λύσεις που θα μειώσουν πολύ αυτό το κόστος, αλλά παράλληλα θα ρίξει φως σε νέες κατευθύνσεις και θα δημιουργήσει νέα μονοπάτια προς εξερεύνηση. Για παράδειγμα, η γονοτύπηση γενετικών δεικτών είναι μια δαπανηρή διαδικασία, όπου το κόστος αυξάνεται ανάλογα με το πλήθος των δεικτών. Η μέθοδος που αναπτύχθηκε στα πλαίσια της διπλωματικής αυτής - FIFS (Frequent Item Feature Selection) - εκμεταλλεύεται τα πεδία της εξόρυξης δεδομένων και της θεωρίας συνόλων, με σκοπό να δώσει μικρό πλήθος χαρακτηριστικών με μεγάλη όμως διακριτικότητα ως προς τους πληθυσμούς προέλευσης των ατόμων. Μετά από σύγκριση με άλλες μεθόδους της βιβλιογραφίας, σε δυο διαφορετικά σύνολα δεδομένων (ένα ανθρώπινο και ένα ζωικό), η FIFS δίνει σε όλες τις περιπτώσεις καλύτερα αποτελέσματα ανάθεσης ατόμων σε πληθυσμούς προέλευσης (classification) χρησιμοποιώντας μεθόδους ανάθεσης που χρησιμοποιούνται ευρέως στη γενετική.

info:eu-repo/semantics/masterThesis
Postgraduate Thesis / Μεταπτυχιακή Εργασία

Feature Selection
Πληθυσμιακή Γονιδιωματική
Population Genomics
Επιλογή Χαρακτηριστικών
Αλγόριθμος
Algorithm

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (EL)
Aristotle University of Thessaloniki (EN)

Ελληνική γλώσσα

2016-10-19T08:50:12Z
2015
info:eu-repo/date/embargoEnd/2018-03-01


Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, Σχολή Θετικών Επιστημών, Τμήμα Πληροφορικής

This record is part of 'IKEE', the Institutional Repository of Aristotle University of Thessaloniki's Library and Information Centre found at http://ikee.lib.auth.gr. Unless otherwise stated above, the record metadata were created by and belong to Aristotle University of Thessaloniki Library, Greece and are made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). Unless otherwise stated in the record, the content and copyright of files and fulltext documents belong to their respective authors. Out-of-copyright content that was digitized, converted, processed, modified, etc by AUTh Library, is made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). You are kindly requested to make a reference to AUTh Library and the URL of the record containing the resource whenever you make use of this material.
info:eu-repo/semantics/embargoedAccess



*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.