Υπολογιστική Μελέτη της Δομής και της Οργάνωσης των Συντηρημένων μη Εκφραζομένων Στοιχείων (CNE) στα Ευκαρυωτικά Γονιδιώματα ως εργαλείο διερεύνησης της πιθανής λειτουργίας και της εξελικτικής δυναμικής τους

 
This item is provided by the institution :

Repository :
Pergamos Digital Library
see the original item page
in the repository's web site and access all digital files if the item*
share



PhD thesis (EN)

2014 (EN)

Υπολογιστική Μελέτη της Δομής και της Οργάνωσης των Συντηρημένων μη Εκφραζομένων Στοιχείων (CNE) στα Ευκαρυωτικά Γονιδιώματα ως εργαλείο διερεύνησης της πιθανής λειτουργίας και της εξελικτικής δυναμικής τους

Πολυχρονόπουλος Δημήτριος (EL)

Στην παρούσα διατριβή επιχειρήσαμε να αναλύσουμε την χωροταξική οργάνωση των Συντηρημένων Μη Εκφραζομένων Στοιχείων (CNE) σε γονιδιώματα σπονδυλωτών και ασπόνδυλων, με σκοπό να διαπιστώσουμε αν μπορούμε να εξάγουμε κάποια συμπεράσματα για το πώς εξελίχθησαν αυτές οι αλληλουχίες με βάση την κατανομή τους στα χρωμοσώματα. Διαπιστώσαμε ότι οι αποστάσεις αυτών ακολουθούν κατανομές τύπου νόμου δύναμης σε μια ποικιλία γονιδιωμάτων. Τέτοιου τύπου κατανομές συνδέονται με συσχετίσεις μακράς εμβέλειας και μορφοκλασματικότητα (έννοιες που έχουν προταθεί για τη στερεοδιαμόρφωση της δομής της χρωματίνης του πυρήνα) και φαίνεται ότι απαντώνται πολύ συχνά στο γονιδίωμα, όπως προκύπτει από τη μελέτη διαφόρων στοιχείων του, σε πληθώρα οργανισμών. Δεδομένου ότι τα CNE σχετίζονται χωρικά με γονίδια, ειδικά με αυτά που ρυθμίζουν αναπτυξιακές διαδικασίες, επιβεβαιώσαμε ότι ένα πρότυπο νόμου δύναμης διατηρείται ανεξάρτητα από το εάν συμπεριληφθούν στοιχεία που βρίσκονται εντός ή εκτός γονιδίων. Όσο πιο «αρχαία» είναι αυτά τα στοιχεία τόσο πιο εκτεταμένες γραμμικότητες δίνουν σε διπλή λογαριθμική κλίμακα, δηλαδή τόσο πιο πολύ συμβάλουν στις παρατηρούμενες κατανομές. Προτείναμε ένα εξελικτικό μοντέλο για την κατανόηση αυτών των ευρημάτων που περιλαμβάνει γεγονότα τμηματικών διπλασιασμών ή διπλασιασμών ολόκληρου του γονιδιώματος και απαλοιφές των περισσοτέρων από τα διπλασιασμένα CNE. Προσομοιώσεις που πραγματοποιήσαμε αναπαράγουν τα κύρια χαρακτηριστικά των παρατηρουμένων κατανομών μεγέθους. Τα CNE παρουσιάζουν ενδιαφέρουσες ιδιότητες σύστασης και γι’αυτό επιχειρήσαμε να δούμε αν μπορούν να κατηγοριοποιηθούν με βάση αυτές τους τις ιδιότητες. Πιο συγκεκριμένα είναι γενικά αλληλουχίες πλούσιες σε A+T ενώ περιβάλλονται από περιοχές χαμηλού Α+Τ. Προσπαθήσαμε, λοιπόν, να ταξινομήσουμε στοιχεία που βρίσκονται υπό επιλεκτική πίεση (εξώνια και CNE) με δύο μεθόδους μηχανικής μάθησης: «Γραφήματα Ν-γραμμάτων» (N-Gram Graphs, NGGs) και «Ανάλυση κ-μερών» (Logic Alignment Free, LAF). Διαπιστώσαμε ότι και με τις δύο μεθόδους, που για πρώτη φορά εφαρμόστηκαν στα πλαίσια ανάλυσης γονιδιωματικών δεδομένων, είναι εφικτή η κλασμάτωση αλληλουχιών του γονιδιώματος (CNE, εξώνια) σε διαφορετικές κατηγορίες μεταξύ γονιδιωμάτων ή εντός του ίδιου γονιδιώματος. Χρησιμοποιήσαμε στις αναλύσεις / συγκρίσεις μας κατάλληλες αναπληρωματικές αλληλουχίες που απομονώνονταν από το εκάστοτε γονιδίωμα έτσι ώστε να έχουν ίδιο μήκος και ποσοστό GC% με τις υπό μελέτη αλληλουχίες μας (CNE / εξώνια). Συγκρίναμε τα αποτελέσματα ταξινόμησης που πήραμε και από τις δύο μεθόδους με μια άλλη ευρέως διαδεδομένη προσέγγιση διαχωρισμού ολόκληρων γονιδιωμάτων που αναφέρεται ως «Γονιδιωματικές Υπογραφές» (Genomic Signatures, GS). Η μελέτη μας αυτή ήταν η πρώτη εφαρμογή των «Γονιδιωματικών Υπογραφών» στην κατάταξη μικρών βιολογικών αλληλουχιών μεγέθους < 50 kb. Για τις ανάγκες όλων των προαναφερθέντων πειραματικών προσεγγίσεων προχωρήσαμε και σε ταυτοποίηση καινούριων στοιχείων CNE στα γονιδιώματα του ανθρώπου (H. sapiens), του σκώληκα (C. elegans) και της μύγας (D. melanogaster). Τα στοιχεία αυτά ταυτοποιήθηκαν έτσι ώστε να προέρχονται από οργανισμούς που να έχουν αποκλίνει από τον κοινό τους εξελικτικό πρόγονο παρόμοιες χρονικές περιόδους. Ενδιαφέρουσες συσχετίσεις και διαφοροποιήσεις μεταξύ αυτών των στοιχείων παρατηρήθηκαν με τη χρήση μεθόδων μηχανικής μάθησης που αναφέρθηκαν πιο πριν. Πιο συγκεκριμένα είδαμε ότι αλληλουχίες CNE που παρουσιάζουν υψηλή ομοιότητα ( > 95% και έως 100%) μεταξύ στοιχίσεων γονιδιωμάτων ανθρώπου / κοτόπουλου φαίνεται πως συνιστούν μια διακριτή κατηγορία υπερσυντηρημένων στοιχείων που επιτελεί λειτουργίες που μένει να ανακαλυφθούν. Το εντυπωσιακό αυτό ποσοστό συντηρητικότητας είναι ακόμα μεγαλύτερο από αυτό που παρατηρείται στα εξώνια (συγκρίνοντας τους δύο αυτούς οργανισμούς, άνθρωπο - κοτόπουλο), ενώ δεν είναι γνωστή κάποια λειτουργία στη φύση, που να απαιτεί τόσο υψηλό βαθμό ομοιότητας σε επίπεδο αλληλουχίας. (EL)
In the present thesis, we attempted to analyse the spatial organization of Conserved Noncoding Elements (CNEs) in vertebrate and invertebrate genomes with the aim to investigate whether we could deduce how those sequences evolved. We found out that the distances of consecutive CNEs follow power law-like distributions in a variety of genomes. Such kinds of distributions are associated with long range correlations and fractality (notions that have been proposed for the conformation of the chromatin inside the nucleus) and seem to occur frequently in the genome as evidenced by the study of different genomic elements in a variety of organisms. Given that CNEs are spatially associated with genes, especially with those that regulate developmental processes, we verified by appropriate gene masking that a power-law-like pattern emerges irrespectively of whether elements found inside protein-coding genes are excluded or not. In addition, we found that the more ancient elements form the most extended linearities in log log plots, when the distances between ancient CNEs are plotted. An evolutionary model was put forward for the understanding of these findings that includes segmental or whole genome duplication events and eliminations (loss) of most of the duplicated CNEs. Simulations reproduce the main features of the observed size distributions. Power-law-like patterns in the genomic distributions of CNEs are in accordance with current knowledge about their evolutionary history in several genomes. CNEs display interesting DNA composition preferences. This prompted us to investigate whether we could classify them by means of their sequence characteristics alone. More specifically, CNEs are generally AT rich sequences while they are surrounded by regions of low AT content. We attempted to classify constrained elements in general (exons and CNEs) using two machine learning approaches: N-Gram Graphs (NGGs) and Logic Alignment Free (LAF). The application of those of two methodologies in the field of genomics is presented for the first time in this thesis. Overall, we managed to effectively classify genomic sequences of functional (or presumably functional) roles into different categories between genomes or inside the same genome. We used pairwise comparisons to do our analysis and naturally – occuring surrogate sequences that are of the same length and GC content with each one of the sequences comprising the studied dataset (CNEs / exons). We compared the classification rates obtained using both these approaches (NGGs and LAF) with another methodology, widely implemented in disciminating whole genomes, that is called «Genomic Signatures» (GS). Our study is the first one demonstrating the applicability of the GS approach in disciminating short biological sequences of length < 50 kb. For the sake of all the above mentioned approaches, we also proceeded to the identification of new Conserved Noncoding Elements in the human (H. sapiens), worm (C. elegans) and insect (D. melanogaster) genomes. In those case, the species selected for CNE identification are characterized by the fact that evolutionary distances with every pair of whole genome alignments are close. We managed to discriminate those sequences efficiently and proposed biological interpretations. More specifically, CNE that display high sequence similarity ( > 95% and up to 100%) between human / chicken whole genome alignments are thought to compose a distinct category of ultraconserved elements that probably play roles in processes that are yet to be determined. This remarkable percentage of sequence similarity is even greater than the one observed for exonic sequences (comparing the two organisms, human / chicken) while there is no known function that requires such a high degree of conservation. (EN)

born_digital_thesis
Διδακτορική Διατριβή (EL)
Doctoral Dissertation (EN)


Greek

2014





*Institutions are responsible for keeping their URLs functional (digital file, item page in repository site)