Ανάπτυξη ευφυών μεθόδων για την ανάλυση και διαχείριση γενετικής πληροφορίας

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*



Development of intelligent methods for the analysis and management of genetic information
Ανάπτυξη ευφυών μεθόδων για την ανάλυση και διαχείριση γενετικής πληροφορίας

Lampros, Christos
Λάμπρος, Χρήστος

PhD Thesis

2012


In this PhD thesis a methodology for protein fold recognition is presented, which leads to the recognition of protein structure. The method is fully automated and given an aminoacid sequence of unknown structure it can classify it into one of the known protein fold categories with high success rate. The methodology has very low computational cost and good results compared to the existing methods which are mentioned in bibliography.More specifically, in the first chapter of the thesis a brief introduction about the genetic material and the proteins is presented. The information flow in molecular biology is described and it is also explained why the knowledge of proteins’ structure is so significant for the understanding of the function of human’s organism. Moreover, the contribution of computational methods to the analysis of genetic information and to the extraction of useful biological knowledge is also described. In the second chapter the difficulties that appear in fold recognition process are initially presented. Then follows a review of the methods for fold recognition that appear in the literature and the detection of their weak points.In the third chapter the proposed methodology is introduced. The Hidden Markov Model used for protein fold recognition is described and is explained how it is trained with protein sequence data. Then the classification process for the proteins of unknown structure is analysed. Finally, the classification competence of the model is evaluated with the use of sequences coming from protein databases, along with the comparison of the extracted results with the those of other methods that have been proposed in literature.In the fourth chapter specific improvements are introduced to the employed model. These improvements are presented in two stages. In the first stage the structure of the model changes and in the second stage the way of scoring the protein sequences against the model changes. These changes lead simultaneously to simplification of the model and to better ability of classifying proteins of unknown structure. In each stage the efficiency of the new form of the model is evaluated with the use of protein sequence data. The extracted results are compared to those calculated when the initial form of the model is applied in the same data.In the fifth chapter a hybrid system is presented which is an alternative approach for classification of proteins of unknown structure. Specifically, a combination of use of a Markov chain and the hidden Markov model takes place along with an optimization method which yields even better results.In the sixth chapter the conclusions of the PhD thesis are presented. More specifically, the advantages and the disadvantages of each stage of the proposed methodology are analysed. Moreover, the perspectives of future work for extending and improving the system are investigated.
Στην παρούσα διατριβή παρουσιάζεται μεθοδολογία για την αναγνώριση της πρωτεϊνικής αναδίπλωσης η οποία ισοδυναμεί με την εύρεση της δομής του μορίου της πρωτεΐνης στο χώρο. Η μέθοδος είναι πλήρως αυτοματοποιημένη και δεδομένης μιας αλληλουχίας αμινοξέων αγνώστου δομής μπορεί να την ταξινομήσει με υψηλό ποσοστό επιτυχίας σε μία από τις γνωστές κατηγορίες πρωτεϊνικής αναδίπλωσης. Η μεθοδολογία έχει πολύ χαμηλό υπολογιστικό κόστος και καλά αποτελέσματα σε σχέση με τις υπάρχουσες μεθόδους που αναφέρονται στη διεθνή βιβλιογραφία.Αναλυτικότερα, στο πρώτο κεφάλαιο παρουσιάζεται σύντομη εισαγωγή για το γενετικό υλικό και τις πρωτεΐνες. Περιγράφεται η ροή της πληροφορίας στη μοριακή βιολογία και αναλύεται γιατί είναι τόσο σημαντική η γνώση της δομής των πρωτεϊνών για την κατανόηση της λειτουργίας του ανθρώπινου οργανισμού. Περιγράφεται επίσης σε γενικές γραμμές η συμβολή των υπολογιστικών μεθόδων στην ανάλυση της γενετικής πληροφορίας και στην εξαγωγή χρήσιμων γνώσεων για τη βιολογία. Στο δεύτερο κεφάλαιο αρχικά παρουσιάζονται οι δυσκολίες που εμφανίζονται κατά την προσπάθεια αναγνώρισης της πρωτεϊνικής αναδίπλωσης. Ακολουθεί βιβλιογραφική ανασκόπηση των ήδη δημοσιευμένων μεθόδων για την αντιμετώπιση του προβλήματος και εντοπισμός των αδύνατων σημείων τους.Στο τρίτο κεφάλαιο εισάγεται η προτεινόμενη μεθοδολογία. Περιγράφεται το κρυμμένο Μαρκοβιανό μοντέλο (Hidden Markov Model) που χρησιμοποιείται για την αναγνώριση πρωτεϊνικής αναδίπλωσης και ο τρόπος που αυτό εκπαιδεύεται με βάση δεδομένα αλληλουχιών πρωτεϊνών. Στη συνέχεια αναλύεται ο τρόπος που ταξινομούνται πρωτεΐνες αγνώστου δομής. Tέλος αξιολογείται η ικανότητα ταξινόμησης του μοντέλου με αλληλουχίες από βάσεις δεδομένων πρωτεϊνών, καθώς και με τη σύγκριση των εξαγόμενων αποτελεσμάτων με άλλες μεθόδους που έχουν προταθεί στη βιβλιογραφία.Στο τέταρτο κεφάλαιο εισάγονται συγκεκριμένες βελτιώσεις στο μοντέλο. Οι βελτιώσεις αυτές παρουσιάζονται σε δύο στάδια. Στο πρώτο στάδιο μεταβάλλεται η δομή του και στο δεύτερο στάδιο μεταβάλλεται ο τρόπος υπολογισμού των αποτελεσμάτων των υπό ταξινόμηση αλληλουχιών ως προς το μοντέλο (scoring). Οι αλλαγές οδηγούν σε απλοποίηση του μοντέλου και ταυτόχρονα καλύτερη ικανότητα ταξινόμησης των πρωτεϊνών αγνώστου δομής. Σε κάθε στάδιο η αποτελεσματικότητα της νέας μορφής του μοντέλου αξιολογείται με δεδομένα αλληλουχιών πρωτεϊνών. Τα εξαγόμενα αποτελέσματα συγκρίνονται με αυτά που προκύπτουν όταν εφαρμόζεται η αρχική μορφή του μοντέλου στα ίδια δεδομένα.Στο πέμπτο κεφάλαιο παρουσιάζεται ένα υβριδικό σύστημα που αποτελεί μια εναλλακτική προσέγγιση για την ταξινόμηση των πρωτεϊνών αγνώστου δομής. Συγκεκριμένα γίνεται συνδυασμός χρήσης μιας Μαρκοβιανής αλυσίδας και του κρυμμένου Μαρκοβιανού μοντέλου αφενός και αφετέρου μεθόδου βελτιστοποίησης που οδηγεί σε ακόμα καλύτερα αποτελέσματα.Στο έκτο κεφάλαιο παρουσιάζονται τα συμπερασμάτα της διατριβής. Πιο συγκεκριμένα εκτιμώνται τα πλεονεκτήματα και οι αδυναμίες κάθε σταδίου της προτεινόμενης μεθοδολογίας. Επιπλέον διερευνώνται οι δυνατότητες μελλοντικής επέκτασης και βελτίωσης του συστήματος.

Φυσικές Επιστήμες ➨ Βιολογία

Biological Sciences
Μαρκοβιανή αλυσίδα
Comparative modelling
Structure prediction
Βιολογία
Πρόβλεψη δομής
Τάξεις
Αναγνώριση πρωτεϊνικής αναδίπλωσης
Φυσικές Επιστήμες
Πρωτεΐνες
Proteins
Markov chain
Protein Fold Recognition
Αμινοξέα
Συγκριτική μοντελοποίηση
Hidden Markov model
Aminoacids
Natural Sciences
Κρυμμένο μαρκοβιανό μοντέλο
Classes

Ελληνική γλώσσα

Πανεπιστήμιο Ιωαννίνων
University of Ioannina

Πανεπιστήμιο Ιωαννίνων. Σχολή Ιατρικής. Τμήμα Ιατρικής. Τομέας Μορφολογικός - Κλινικοεργαστηριακός. Εργαστήριο Ιατρικής Φυσικής




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.