Οι παράγοντες μεταγραφής (TFs) διαδραματίζουν κρίσιμο ρόλο στη ρύθμιση των γονιδίων, ενορχηστρώνοντας κυτταρικές διεργασίες καθοριστικές για την ανάπτυξη, τη διαφοροποίηση και την απόκριση σε περιβαλλοντικά ερεθίσματα. Ωστόσο, η κατανόηση της ακριβούς αναγνώρισης και του μεταγραφικού ελέγχου των θέσεων δέσμευσης TF παραμένει πρόκληση λόγω της εξειδίκευσής τους στον κυτταρικό τύπο και της δυναμικής συμπεριφοράς εντός των οργανισμών. Πειραματικές τεχνικές όπως η ανοσοκατακρήμνιση χρωματίνης ακολουθούμενη από αλληλούχιση (ChIP-seq) προσφέρουν υψηλή ακρίβεια, αλλά συνοδεύονται από περιορισμούς στην προσβασιμότητα, στη διαθεσιμότητα αντισωμάτων και το υψηλό κόστος λόγω του ότι είναι ειδικές για ένα μόνο TF ανά πείραμα. Για να γεφυρωθεί αυτό το χάσμα, έχουν προκύψει υπολογιστικά εργαλεία όπως αλγόριθμοι ανακάλυψης μοτίβων και εργαλεία σάρωσης μοτίβων (π.χ. FIMO), ωστόσο συχνά παράγουν ψευδώς θετικά αποτελέσματα. Σε αυτήν την διπλωματική, παρουσιάζουμε ένα βελτιστοποιημένο μοντέλο νευρωνικού δικτύου βασισμένο σε ακολουθία, εκπαιδευμένο σε επιμελημένα δεδομένα που δημιουργήθηκαν με χρήση του αλγόριθμου FIMO, ρυθμιστικών περιοχών από τη βάση δεδομένων ensemlb και πειράματα Chip-seq. Στόχος μας ήταν να βελτιώσουμε τις προβλέψεις των σημείων πρόσδεσης παραγόντων μεταγραφής (TF) που ελήφθησαν από το FIMO σε όλο το γονιδίωμα. Αναπτύξαμε μεμονωμένα μοντέλα για κάθε TF καθώς και ένα συλλογικό μοντέλο χρησιμοποιώντας δεδομένα από όλα τα TF. Επιπλέον, αξιολογήσαμε την απόδοση του μοντέλου μας σε διάφορα σενάρια. Η ενσωμάτωση δομικών πληροφοριών βελτίωσε σημαντικά την απόδοση του μοντέλου. Η προσέγγισή μας στοχεύει να παρέχει ένα ευέλικτο και ακριβές εργαλείο για την πρόβλεψη θέσεων πρόσδεσης TF σε διάφορους TF και τύπους κυττάρων, προωθώντας την κατανόησή μας για τη γονιδιακή ρύθμιση.
(EL)
Transcription factors (TFs) play a crucial role in gene regulation, orchestrating cellular processes pivotal for development, differentiation, and response to environmental stimuli. However, understanding TF binding sites' precise recognition and transcriptional control remains challenging due to their cell type specificity and dynamic behavior within different tissues and organisms. Experimental techniques such as Chromatin Immunoprecipitation followed by sequencing (ChIP-seq) offer high accuracy but come with limitations in accessibility, antibody availability and high cost due to being specific for to a single TF per experiment. To bridge this gap, computational tools like motif discovery algorithms and motif scanning tools (e.g FIMO) have emerged, yet they often generate false positive results. In this thesis, we present an optimized sequence-based Neural Network model trained on curated data that was created using FIMO algorithm, annotated regions from ensemlb database and Chip-seq experiments. Our objective was to refine transcription factor (TF) binding site predictions obtained from FIMO across the genome. We developed individual models for each TF as well as a collective model using data from all TFs. Additionally, we evaluated our model's performance in several scenarios. Integration of structural information significantly improved model performance. Our approach aims to provide a versatile and accurate tool for predicting TF binding sites across various TFs and cell types, advancing our understanding of gene regulation.
(EN)