Η μελέτη και κατανόηση του μεταγραφώματος είναι σημαντική για την διερεύνηση των μοριακών συστατικών των κυττάρων ή ιστών, την ερμηνεία των λειτουργικών στοιχείων του γονιδιώματος ή ακόμα και την κατανόηση της ανάπτυξης μιας ασθένειας. Στην ανάλυση των μεταγραφωμικών δεδομένων (είτε RNAseq, είτε μικροσυστοιχιών) έχουμε δυο είδη προσεγγίσεων, αυτό που αφορά την ανάλυση διαφορικής γονιδιακής έκφρασης και αυτό της γονιδιακής συνέκφρασης. Στην παρούσα εργασία μελετήθηκε η γονιδιακή συνέκφραση, η οποία έχει ως κέντρο τον συνδυασμό πολλών διαφορετικών μεταγραφωμικών δεδομένων του ίδιου οργανισμού, τα οποία λαμβάνονται από διαφορετικούς ιστούς ή αναπτυξιακά στάδια. Γονίδια με παρόμοια πρότυπα έκφρασης τείνουν να συμμετέχουν σε κοινές βιολογικές διεργασίες. Σκοπός της εργασίας ήταν η ομαδοποίηση ανθρώπινων γονιδίων σύμφωνα με τα επίπεδα συνέκφρασής τους σε συσχετισμένες γονιδιακές ομάδες (clusters), με τεχνικές Μηχανικής Μάθησης και πιο συγκεκριμένα Βαθιάς Μάθησης. Τα δεδομένα που χρησιμοποιήθηκαν ήταν RNA-seq Αλληλούχησης Επόμενης Γενεάς, bulk και single cell, ενώ αντλήθηκαν από την δημόσια Βάση Δεδομένων GTEx (Genotype-Tissue Expression). Η βάση αυτή μελετά την έκφραση και ρύθμιση γονιδίων του ανθρώπου, καθώς και γενετικούς πολυμορφισμούς. Τα δεδομένα bulk RNA-seq περιείχαν την απαρίθμηση των αναγνώσεων κάθε γονιδίου σε κάθε ανθρώπινο δείγμα, ενώ και από τα single cell RNA-seq δεδομένα, έπειτα από αλλαγές αποσπάστηκε το τμήμα του πίνακα με τις γονιδιακές απαριθμήσεις. Με τεχνικές και αλγορίθμους κυρίως Νευρωνικών Δικτύων, προχωρήσαμε σε δοκιμές ομαδοποιήσεων αρχικά δειγμάτων, αλλά και έπειτα γονιδίων. Τα πιο αποτελεσματικά είδη νευρωνικών δικτυών φαίνεται να είναι οι Autoencoders, οι Variational Autoencoders και τα Graph Neural Networks. Εκτός από τον στόχο για τη δημιουργία ομάδων γονιδίων, προχωρήσαμε και σε διερεύνηση αλγορίθμων Βαθιάς Μάθησης, για την ανάλυση και την δημιουργία καλύτερων δεδομένων εισόδου (πίνακες έκφρασης γονιδίων) για τους αλγορίθμους ομαδοποίησης.
Η ομαδοποίηση των γονιδίων με παρόμοια πρότυπα έκφρασης μπορεί να αποβεί χρήσιμη σαν προσέγγιση, καθώς δίνει την δυνατότητα να αντληθούν πληροφορίες σχετικά με την ταυτοποίηση ομάδων γονιδίων, που αποτελούν λειτουργικούς συνεργάτες, των οποίων η σχέση δεν έχει ακόμα πλήρως προσδιοριστεί, την αποσαφήνιση μοριακών μηχανισμών ή ακόμα και την εύρεση πιθανών μεταβολικών μονοπατιών.
(EL)
The study and understanding of the transcriptome are important for investigating the molecular components of cells or tissues, interpreting the functional elements of the genome or even understanding the development of a disease. In the analysis of transcriptomic data (either RNA-seq or microarrays) we have two kinds of approaches, the one concerning the analysis of differential gene expression and the one of gene co-expression. In the present work, gene co-expression was studied, which has as its center the combination of many different transcriptomic data of the same organism, which are obtained from different tissues or developmental stages. Genes with similar expression patterns tend to participate in common biological processes. The purpose of the work was the grouping of human genes according to their co-expression levels in correlated gene groups (clusters), with Machine Learning and more specifically Deep Learning techniques. The data used were Next Generation Sequencing RNA-seq, bulk and single cell, and were drawn from the public GTEx (Genotype-Tissue Expression) Database. This database studies the expression and regulation of human genes, as well as genetic polymorphisms. The bulk RNA-seq data contained the enumeration of the reads of each gene in each human sample, while from the single cell RNA-seq data, after changes, the part of the table with the gene enumerations was detached. With techniques and algorithms mainly of Neural Networks, we proceeded with grouping tests, initially of samples, and then of genes. The most effective types of neural networks seem to be Autoencoders, Variational Autoencoders and Graph Neural Networks. In addition to the goal of generating gene clusters, we also investigated Deep Learning algorithms to analyze and generate better input data (gene expression arrays) for the clustering algorithms.
The grouping of genes with similar expression patterns can be a useful approach, as it enables the identification of groups of genes, which are functional partners, whose relationship has not yet been fully determined, the elucidation of molecular mechanisms or even and finding potential metabolic pathways.
(EN)