Η μελέτη μιας πληθώρας επιστημονικών τομέων σχετικές με βιολογία και ιατρική, με εφαρμογές
στην έρευνα ασθενειών και ανάπτυξης φαρμάκων, εξαρτάται από την μελέτη της λειτουργίας των
πρωτεϊνών. Οι πρωτεϊνες ειναι βιομόρια υπεύθυνα για τις βασικές λειτουργίες των ζωντανών οργανισμών. Τα δομικά στοιχεία των πρωτεϊνών ονομάζονται αμινοξέα, και η οργάνωση τους σε ακολουθίες
ορίζει την τελική τους δομή. Η δομή των πρωτεϊνών σχετίζεται άμεσα με τη λειτουργία τους.
Η πρόβλεψη της δομής των πρωτεϊνών είναι ο τομέας της βιοπληροφορικής που ασχολείται με τον
υπολογισμό της δομής μιας πρωτεϊνης δεδομένης της σειράς των αμινοξέων εντός της ακολουθίας.
Η πρόβλεψη της δομής των πρωτεϊνών είναι σημαντικής επειδή η ακριβής μέτρηση της πρωτεϊνης
είναι μια αργή και πολύ ακριβή διαδικασία, ενώ αντίθετα η σειρά των αμινοξέων είναι πειραματικά
πιο προσιτή.
Τα τελευταία δέκα χρόνια, η πρόβλεψη αυτή προσεγγίστηκε με τεχνικές βαθιάς μηχανικής μάθησης.
Μεταξύ των αρχιτεκτονικών που έχουν προταθεί είναι τα επαναλαμβανόμενα νευρωνικά δίκτυα,
τα συνελικτικά δίκτυα τα πυκνά νευρωνικά δίκτυα. Σε αυτή τη διπλωματική εργασία, σχεδιάζεται,
μελετάται και εκπαιδεύεται ένα συνελικτικό νευρωνικό δίκτυο για την πρόβλεψη της δευτεροταγούς
δομής των πρωτεϊνών. Δοκιμάζονται επίσης νευρώνες αυτο-προσοχής και ένας νέος τρόπος αναπαράστασης των ακολουθιών εισόδου. Τα μοντέλα που εκπαιδεύτηκαν, επιτυγχάνουν μια ακρίβεια συγκρινόμενη με τα πιο ακριβή της βιβλιογραφίας, ενώ παρουσιάζονται ιδέες για της επεξήγηση των αποτελεσμάτων χρησιμοποιώντας τους μηχανισμούς προσοχής.
(EL)
The study of an array of biological and medical fields, with applications on human disease investigation and medicine, is depended on the study of the function of proteins. Proteins are biomolecules
that perform functions that are essential for living organisms. The building blocks of proteins are
aminoacids, whose arrangement into sequences defines the overall structures. Protein structure is
tightly related to its function.
Protein structure prediction, is the field of bioinformatics where the structure of a protein is calculated from the order of aminoacids inside the underlying sequence. The protein structure prediction
task is important because the precise measurement of a protein is a slow and very expensive process,
while on the contrary, the order of aminoacids is an easier information to extract experimantally.
In the last ten years, this task is approached with deep learning techniques. Proposed architectures
for this purpose use recurrent neural networks, convolutional neural networks and dense neural networks. In this thesis, a convolutional neural network is designed, studied and trained to predict the
secondary structure of proteins. Self attention layers and a novel way to encode input are used. The
described single models and enseble models reach an accuracy on par with the state of the art, and
ideas on interpretability of the results using the self attention mechanism are also presented.
(EN)