Στα πλαίσια της παρούσας διατριβής μελετήθηκε εκτενώς, με υπολογιστικές
μεθόδους, η πολύ ενδιαφέρουσα υπεροικογένεια των GPCRs, καθώς και οι
G-πρωτεΐνες. Αναπτύχθηκαν δύο μέθοδοι:
Η μέθοδος GPCRpipe (http://bioinformatics.biol.uoa.gr/GPCRpipe/) χαρακτηρίζει
πρωτεΐνες ως πιθανούς GPCRs με μόνη πληροφορία την αλληλουχία, και στηρίζεται
σε ειδικά μοτίβα που περιγράφονται από pHMMs της βάσης Pfam, καθώς και σε ένα
HMM το οποίο έχει κατασκευαστεί ειδικά για τους GPCRs και επιτρέπει την
πρόγνωση της ακριβούς τους τοπολογίας. Η μέθοδος GprotPRED (
http://bioinformatics.biol.uoa.gr/GprotPRED/) σχεδιάστηκε για να εντοπίζει με
ταχύτητα και αξιοπιστία G-πρωτεΐνες με μόνη πληροφορία την αλληλουχία τους.
Ειδικότερα, με τα ειδικά κατασκευασμένα pHMMs που περιλαμβάνει, μπορεί να
εντοπίσει Gα υπομονάδες και μάλιστα να τις ταξινομήσει στις τέσσερις βασικές
οικογένειες που συναντώνται στα θηλαστικά (Gs, Gi/o, Gq/11, G12/13), ενώ, με τα
δύο ειδικά κατασκευασμένα, από την εργασία μας, pHMMs για τη β και τη γ
υπομονάδα, ο εντοπισμός G-πρωτεϊνών είναι ολοκληρωμένος. Ο τεράστιος όγκος
δεδομένων που αφορούν τους συζευγμένους με G-πρωτεΐνες υποδοχείς οδήγησε στη
δημιουργία δύο νέων βάσεων δεδομένων: Η Human-gpDB είναι διαθέσιμη στον
ιστότοπο http://bioinformatics.biol.uoa.gr/human_gpdb/ και περιλαμβάνει
πληροφορίες για ανθρώπινους GPCRs, G-πρωτεΐνες και εκτελεστές και τις μεταξύ
τους αλληλεπιδράσεις. Η PLHG-DB (http://bioinformatics.bio.uoa.gr/plhg_db/)
περιλαμβάνει τους πεπτιδικούς υποκαταστάτες των ανθρώπινων GPCRs. Συγκεκριμένα,
πληροφορίες που αφορούν την ακολουθία του πεπτιδικού υποκαταστάτη, συχνά τη
λειτουργία αυτού, το προπεπτίδιο από το οποίο προέρχεται, καθώς και πληροφορίες
για την αλληλεπίδραση με τον υποδοχέα, όλα συνοδευόμενα από αντίστοιχες
βιβλιογραφικές αναφορές, παρέχονται στο χρήστη. Στη συνέχεια, μελετήθηκαν τόσο
οι δομές όσο και οι αλληλουχίες των G-πρωτεϊνών, και αναγνωρίστηκαν στην
επιφάνεια των Gα υπομονάδων μια σειρά από περιοχές και κατάλοιπα που μπορούν σε
πολλές περιπτώσεις να αλληλεπιδράσουν τόσο με GPCRs όσο και με εκτελεστές. Η
σύγκριση της αλληλουχίας και της δομής αυτών των περιοχών ανάμεσα σε
διαφορετικές Gα υπομονάδες υποδεικνύει πως η ετερογένειά τους μπορεί να
επηρεάσει τις αλληλεπιδράσεις τους με εκτελεστές και ίσως με υποδοχείς. Τέλος,
η αξιοσημείωτη ετερογένεια των ηλεκτροστατικών ιδιοτήτων, η συμπληρωματικότητά
τους με τις ηλεκτροστατικές ιδιότητες των αντίστοιχων αλληλεπιδρώντων μορίων,
αλλά και η ενεργειακή ανάλυση των συμπλόκων τους, προτείνουν πως το
ηλεκτροστατικό δυναμικό είναι ίσως καθοριστικής σημασίας παράγοντας στις
αλληλεπιδράσεις των G-πρωτεϊνών. Τέλος, μελετήθηκαν οι παρερμηνεύσιμοι SNPs των
ανθρώπινων GPCRs υποδοχέων της Κατηγορίας Α και η συσχέτισή τους με ασθένειες.
Συγκεντρώθηκαν 650 ανθρώπινοι, class A GPCRs, από τις βάσεις δεδομένων
UniProtKB/SwissProt και RefSeq, και 21746 παρερμηνεύσιμοι SNPs που εντοπίστηκαν
σε αυτούς μέσω των βάσεων dbSNP, UniProtKB/SwissProt, SNPdbe και ClinVar.
Ύστερα από στατιστική μελέτη, εντοπίσαμε μία «προτίμηση» εμφάνισής τους σε
συγκεκριμένες τοπολογικές περιοχές (ενδοκυττάριοι βρόχοι), ενώ σε κάποιες άλλες
υπάρχει στατιστικά μειωμένη εμφάνιση αυτών (διαμεμβρανικά τμήματα). Για 39 από
τους υποδοχείς βρέθηκαν 441 παρερμηνεύσιμοι SNPs οι οποίοι σχετίζονται με
ασθένειες. Σε αυτό το σύνολο έγινε οπτικοποίηση των SNPs σε διαγράμματα
δευτεροταγούς δομής και σε τρισδιάστατα μοντέλα και παρατηρήθηκε σε
συγκεκριμένους υποδοχείς μια «συγκέντρωση» των πολυμορφισμών σε ορισμένες
περιοχές στο χώρο.
(EL)
In the context of this thesis, using computational methods, we studied
extensively, the very interesting superfamily of GPCRs and their partners,
G-proteins. Two methods were developed:
GPCRpipe (http://bioinformatics.biol.uoa.gr/GPCRpipe/) characterizes proteins
as probable GPCRs, using only their sequence as input. It is based on specific
patterns described by Pfam pHMMs and on a specially designed by our work GPCR
specific HMM, which allows the prediction of their topology. GprotPRED
(http://bioinformatics.biol.uoa.gr/GprotPRED/) was designed to accurately
detect G-proteins with solely their sequence as input. Using the specific
pHMMs that were built, it detects Gα proteins, and classifies them in the four
basic mammal families (Gs, Gi/o, Gq/11, G12/13). Moreover, with two additional
pHMMs for the β and γ subunits, identification of G-proteins is complete.
The sheer volume of data on G-coupled protein receptors led to the creation of
two new databases: Human-gpDB is available at
http://bioinformatics.biol.uoa.gr/human_gpdb/ and contains information
regarding human GPCRs, G-proteins, effectors and their interactions. PLHG-DB
http://bioinformatics.bio.uoa.gr/plhg_db/) includes all peptide ligands of
human GPCRs. Specifically, information on the sequence of the peptide ligand,
its function, the precursor protein and the interaction with the respective
receptor, all accompanied by the respective citations, is presented to the user.
We analyzed the structures and amino acid sequences of G-proteins and
identified certain surfaces of Gα subunits that may, in many cases, participate
in binding both receptors and effectors. The differences displayed in the
sequence and structure of these sites may perhaps account for Gα specificity
towards their binding partners. Furthermore, the diversity in the
electrostatic potential of Gα surfaces, combined with observed electrostatic
properties of various effectors and RGS structures, suggests that electrostatic
complementarity is, most probably, an important factor in the regulation of
effectors by G-proteins, as well as Gα interactions with RGS proteins. Finally,
we studied all missense SNPs on human, class A GPCRs and their associations
with diseases. A set of 650 human class A GPCRs from UniProtKB/SwissProt and
RefSeq databases along with 21746 missense SNPs through dbSNP,
UniProtKB/SwissProt, SNPdbe and ClinVar was created. Using statistical
analysis, a tendency for the SNPs to be more abundant in some domains
(cytoplasmic loops), and less abundant in others (transmembrane segments) was
observed. Consolidation of the data disclosed a total of 441 SNPs, located in
39 receptors, which were found to have a clinical impact or/and an association
with disease. For these receptors, both secondary structure diagrams and 3D
models were created and all SNPs were mapped on them. In some of the
constructed models, pathogenic SNPs tend to accumulate in certain regions.
(EN)