Ανάπτυξη βιοπληροφορικών εργαλείων με εφαρμογές στην πληθυσμιακή γενετική

 
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2015 (EL)
Ανάπτυξη βιοπληροφορικών εργαλείων με εφαρμογές στην πληθυσμιακή γενετική

Καβακιώτης, Ιωάννης Απόστολου

Η σημαντική πρόοδος της βιοτεχνολογίας κατά τα τελευταία χρόνια έχει καταστήσει δυνατή την εύκολη και φθηνή πλέον παραγωγή δεδομένων. Το γεγονός αυτό γίνεται φανερό αφενός από την αύξηση του αριθμού των νέων βάσεων δεδομένων και αφετέρου από την εκθετική αύξηση των εγγραφών των παλαιότερων. Για τον λόγο αυτό σήμερα, η περιοχή της Εξόρυξης Βιολογικών Δεδομένων (Biology Data Mining) ή αλλιώς Ανακάλυψη Γνώσης από Βιολογικά Δεδομένα είναι περισσότερο από ποτέ αναγκαία και σημαντική. Η παρούσα εργασία κινείται στα πλαίσια της Μηχανικής Μάθησης και Εξόρυξης Δεδομένων από πλευράς πληροφορικής και Πληθυσμιακής Γενετικής από πλευράς βιολογίας. Αντικείμενο της παρούσας εργασίας είναι η ανάπτυξη αλγορίθμων από την περιοχή της εξόρυξης δεδομένων και η εφαρμογή τους για την ανάλυση δεδομένων πληθυσμιακής γονιδιωματικής. Οι υπό ανάπτυξη αλγόριθμοι προορίζονται για την επιλογή πληροφοριακών δεικτών από δεδομένα πληθυσμιακής γονιδιωματικής, και πιο συγκεκριμένα δεδομένα πολυμορφισμών μονών νουκλεοτιδίων (Single Nucleotide Polymorphism – SNPs). Κατά τη διπλωματική εργασία τέθηκαν και υλοποιήθηκαν δύο στόχοι. Ο πρώτος ήταν η ανάπτυξη μιας εφαρμογής (TRES-Toolbox for Ranking and Evaluation of SNPs) που προσφέρει μια σειρά από αλγορίθμους, σχετικούς με την ανάλυση και την επιλογή των πιο πληροφοριακών SNP από σύνολα δεδομένων πληθυσμιακής γονιδιωματικής. Πιο συγκεκριμένα, περιέχει αλγορίθμους για χειρισμό δεδομένων SNP, καθώς και τους αλγορίθμους αναφοράς (baseline) και state–of–the–art που έχουν προταθεί στην βιβλιογραφία για την επιλογή πληροφοριακών δεικτών. Η εφαρμογή υλοποιήθηκε με τέτοιο τρόπο ώστε να μην υπολείπεται και επιπλέον να λύνει τα προβλήματα των άλλων προγραμμάτων και μεθόδων στον χώρο. Μπορεί να χειριστεί σύνολα δεδομένων με εξαιρετικά μεγάλο αριθμό SNP, δεν παρέχει μεροληπτικά ανοδικά αποτελέσματα, είναι εξαιρετικά γρήγορη και εύκολη στη χρήση λόγω της γραφικής διεπαφής χρήστη. Ο δεύτερος στόχος είναι η επινόηση νέων τεχνικών επιλογής πληροφοριακών δεικτών. Οι νέες τεχνικές είναι εμπνευσμένες από τις θεωρίες κοινωνικής επιλογής και ψηφοφοριών και βασίζονται στο συνδυασμό των αποτελεσμάτων που παράγονται από τις ήδη υπάρχουσες τεχνικές επιλογής δεικτών.Τα αποτελέσματα της εργασίας συνολικά στοχεύουν στην παροχή μεθόδων και εργαλείων για την πιο εύκολη και πιο επιτυχημένη επιλογή πληροφοριακών δεικτών για τη μείωση του κόστους παραγωγής panel που μπορούν να χρησιμοποιηθούν σε μια σειρά από περιοχές, όπως ταυτοποίηση ειδών, διαχείριση άγριας πανίδας και ιατροδικαστικές έρευνες.
The significant progress of biotechnology in recent years has enabled the easy and inexpensive production of data. This is evident both from the increase in the number of new databases and the exponential entries increase in existing ones. That is why today, the area of Biology Data Mining or otherwise Knowledge Discovery from Biological Data is more than ever necessary and important. This work is strongly related with the research fields of Machine Learning and Data Mining from Informatics and Population Genetics from biology. The purpose of this study is to develop algorithms from the area of data mining and their application for the analysis of population genomic data. The developed algorithms are designed to select informative markers from population genomic data, and more specifically single nucleotide polymorphisms (Single Nucleotide Polymorphism - SNPs) datasets. In this dissertation there are two main objectives. The first is the development of the application TRES (Toolbox for Ranking and Evaluation of SNPs), which offers a series of algorithms related to the analysis and selection of the most informative SNP from population genomic datasets. More specifically, it contains algorithms for manipulating SNP datasets, and the baseline and state-of-the-art algorithms that have been proposed in the literature for selecting informative markers. TRES is implemented in a way that does not to suffer or even solves the problems that other proposed programs and methods suffer from. It can handle datasets with extremely large number of SNPs, does not provide upwardly biased results, and it is extremely efficient and easy to use due to the intuitive graphical user interface. The second objective is to propose new algorithms for selecting informative markers. Those new techniques are inspired by the social choice and voting theory and combine results offered by existing marker selection techniques. The results of the work as a whole aim at providing methods and tools for easier and more successful selection of informative markers, in order to reduce SNP panel production costs, that can be used in a number of research and commercial areas, such as species identification, wildlife management and forensic investigations.

info:eu-repo/semantics/masterThesis
Postgraduate Thesis / Μεταπτυχιακή Εργασία

Γενετική πληθυσμών
Επιλογή πληροφοριακών δεικτών
Βιοπληροφορική
Informative marker selection
Bioinformatics
Population genetics

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (EL)
Aristotle University of Thessaloniki (EN)

Ελληνική γλώσσα

2015
2016-11-16T09:14:43Z
info:eu-repo/date/embargoEnd/2018-04-01


Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, Σχολή Θετικών Επιστημών, Τμήμα Βιολογίας

This record is part of 'IKEE', the Institutional Repository of Aristotle University of Thessaloniki's Library and Information Centre found at http://ikee.lib.auth.gr. Unless otherwise stated above, the record metadata were created by and belong to Aristotle University of Thessaloniki Library, Greece and are made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). Unless otherwise stated in the record, the content and copyright of files and fulltext documents belong to their respective authors. Out-of-copyright content that was digitized, converted, processed, modified, etc by AUTh Library, is made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). You are kindly requested to make a reference to AUTh Library and the URL of the record containing the resource whenever you make use of this material.
info:eu-repo/semantics/embargoedAccess



*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.