Επιρροή των σύγχρονων μεθόδων πρόβλεψης πρωτεϊνικών δομών στον προσδιορισμό ομολογίας, εξελικτικών σχέσεων και βιολογικής λειτουργίας

δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*



Impact of recent protein structure prediction methods on homology, evolutionary and functional inference
Επιρροή των σύγχρονων μεθόδων πρόβλεψης πρωτεϊνικών δομών στον προσδιορισμό ομολογίας, εξελικτικών σχέσεων και βιολογικής λειτουργίας

Baltzis, Athanasios
Μπαλτζής, Αθανάσιος

PhD Thesis

2023


Recent advances in deep learning techniques have revolutionised protein structure modelling. Since AlphaFold2’s release, a set of tools have now become available to predict native-like structures at near-experimental accuracy for a large fraction of the proteome. This massive amount of structural data is now powering every kind of biological inference requiring structural information. The work presented here features an exploration of the impact of experimental and predicted protein structural information onto homology, evolutionary and functional inference. The first part addresses the issue of accurate multiple sequence alignment (MSA) computation through a novel large-scale algorithmic approach and the systematic use of predicted structural information. In the second part, I explored the contribution of MSAs and structural information to refine phylogenetic and functional inference. On top of developing generic structure-based phylogeny reconstruction methods, I used RBM10, a well characterised splicing factor, as a showcase for the use of predicted structural information to support the inference of functional and phenotypic predictions, especially in the case of pathogenic mutations. The last part of this thesis presents a best-practice bioinformatics pipeline, nf-core/proteinfold, implemented using the Nextflow workflow management system and following nf-core guidelines. This pipeline was developed as a support for the rest of the projects in order to provide a solution to the need of high throughput structure predictions.
Οι πρόσφατες εξελίξεις στις τεχνικές deep learning έχουν φέρει επανάσταση στη μοντελοποίηση της δομής των πρωτεϊνών. Αρχής γενομένης από την κυκλοφορία του AlphaFold2, έχει πλέον γίνει διαθέσιμο ένα σύνολο εργαλείων για την πρόβλεψη δομών που μοιάζουν με εγγενείς με σχεδόν πειραματική ακρίβεια για ένα μεγάλο μέρος του πρωτεώματος. Αυτή η τεράστια ποσότητα δομικών δεδομένων τροφοδοτεί τώρα κάθε είδους βιολογικό προσδιορισμό που απαιτεί δομικές πληροφορίες. Η εργασία που παρουσιάζεται εδώ περιλαμβάνει μια εξερεύνηση του αντίκτυπου των πειραματικών και προβλεπόμενων δομικών πληροφοριών πρωτεΐνης στην ομολογία, την εξελικτική και λειτουργική εξαγωγή συμπερασμάτων. Το πρώτο μέρος πραγματεύεται το ζήτημα του ακριβούς υπολογισμού της ευθυγράμμισης πολλαπλών αλληλουχιών (MSA) μέσω μιας νέας αλγοριθμικής προσέγγισης μεγάλης κλίμακας και της συστηματικής χρήσης προβλεπόμενων δομικών πληροφοριών. Στο δεύτερο μέρος, διερεύνησα τη συμβολή των MSA και των δομικών πληροφοριών για τη βελτίωση του φυλογενετικού και λειτουργικού προσδιορισμού. Εκτός από την ανάπτυξη γενικών μεθόδων αναδόμησης φυλογένεσης με βάση την πρωτεϊνική δομή, χρησιμοποίησα την πρωτεΐνη RBM10, έναν καλά χαρακτηρισμένο παράγοντα ματίσματος, ως ένα ενδεικτικό παράδειγμα για τη χρησιμότητα των δομικών πληροφοριών προερχόμενων από μοντελοποίηση για την υποστήριξη της εξαγωγής λειτουργικών και φαινοτυπικών προβλέψεων, ειδικά στην περίπτωση παθογόνων μεταλλάξεων. Το τελευταίο μέρος αυτής της διατριβής παρουσιάζει ένα πρόγραμμα βιοπληροφορικής βέλτιστων πρακτικών, nf-core/proteinfold, που υλοποιείται χρησιμοποιώντας το σύστημα διαχείρισης ροής εργασιών Nextflow και ακολουθώντας τις οδηγίες nf-core. Αυτό το πρόγραμμα αναπτύχθηκε ως υποστήριξη για τα υπόλοιπα έργα αυτής της διατριβής προκειμένου να δώσει λύση στην ανάγκη πρόβλεψης πρωτεϊνικών δομών υψηλής απόδοσης.

Φυσικές Επιστήμες ➨ Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική ➨ Βιοπληροφορική
Φυσικές Επιστήμες ➨ Βιολογία ➨ Μαθηματική και Υπολογιστική βιολογία

Biological Sciences
Στοίχιση πολλαπλών αλληλουχιών
Multiple sequence alignment
Mathematical and Computational Biology
Βιολογία
Βιολογική λειτουργία
Computer and Information Sciences
Φυσικές Επιστήμες
Phylogenetic reconstruction
Protein structure modelling
Large-scale analysis
Φυλογενετική ανάλυση
Μοντελοποίηση πρωτεϊνικών δομών
Ανάλυση μεγάλης κλίμακας
Functional inference
Βιοπληροφορική
Επιστήμη Ηλεκτρονικών Υπολογιστών και Πληροφορική
Natural Sciences
Bioinformatics
Μαθηματική και Υπολογιστική βιολογία

Αγγλική γλώσσα

Institutes outside Greece
Ιδρύματα Εξωτερικού

Universitat Pompeu Fabra (UPF)




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.