Mining the Biomedical Literature – The MineBioText system: Discovery of Gene, Protein and Disease Correlations

 
Το τεκμήριο παρέχεται από τον φορέα :

Αποθετήριο :
E-Locus Ιδρυματικό Καταθετήριο
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2006 (EL)

Εξόρυξη γνώσεων από Βιοϊατρική Βιβλιογραφία – Το Σύστημα ΜINEBIOΤEXT: Ανακάλυψη συσχετίσεων μεταξύ γονιδίων, πρωτεϊνών και ασθενειών
Mining the Biomedical Literature – The MineBioText system: Discovery of Gene, Protein and Disease Correlations

Αντωνακάκη, Δέσποινα (EL)
Antonakaki, Despoina (EN)

Η αυτόματη ανακάλυψη γνώσεων από έγγραφα βιοϊατρικού περιεχομένου ελεύθερης γραφής (free-texts) αποτελεί μια αναγκαιότητα κυρίως λόγω του τεράστιου, και συνεχώς αυξανόμενου, πλήθους σχετικών επιστημονικών αναφορών. Το βασικό πρόβλημα που κάνει αυτόν τον στόχο περισσότερο προκλητικό και δύσκολο είναι η υπεραφθονία καθώς και η ποικιλομορφία σχετικών γονιδιωματικών ορολογιών και των εμπλεκόμενων γονιδιακών/πρωτεϊνικών ορολογιών. Συγκεκριμένα, ένας γονιδιωματικός όρος, π.χ., γονίδιο ή πρωτεΐνη και η περιγραφή της λειτουργία, αλλά και σχετιζόμενες ασθένειες, αναφέρονται με πολλούς διαφορετικούς τρόπους σε σχετικά επιστημονικά έγγραφα ανάλογα με το ερευνητικό πλαίσιο και τις συμβάσεις ονοματολογίας που ο συντάκτης του εγγράφου αποδέχεται και ακολουθεί. Η εργασία που αναφέρεται σε αυτήν την μεταπτυχιακή διατριβή παρουσιάζει μεθόδους και τα εργαλεία για την αποδοτική και αξιόπιστη ανακάλυψη γνώσεων από τη σχετική βιοϊατρική βιβλιογραφία και αναφορές, και βασίζεται σε προηγμένες τεχνικές εξόρυξης γνώσης από κείμενα (text-mining). Συγκεκριμένα, συνδιαλέγεται και προσφέρει λύσεις στις παρακάτω ερευνητικές και αναπτυξιακές (Ε&Α) προκλήσεις: (α) Αυτόματη ανακάλυψη συσχετίσεων μεταξύ γονιδίων/πρωτεϊνών και μεταξύ γονιδίων/πρωτεϊνών και ασθενειών. Το θέμα προσεγγίζεται με τεχνικές και αλγοριθμικές διαδικασίες text-mining καθώς και τη δημιουργία και χρήση σχετικών στατιστικών μετρικών: (i) Προσδιορισμός, αναγνώριση και διαχείριση όρων σε βιοϊατρικά έγγραφα – για το σκοπό αυτό επινοήθηκε και προσαρμόστηκε κατάλληλα μια αλγοριθμική διαδικασία που χρησιμοποιεί την ευέλικτη και αποδοτική δομή δεδομένων Trie, και (ii) ταξινόμηση των όρων και (των πιθανών) σχέσεών τους ή, συνδέσεων – για το σκοπό αυτό η εντροπική μετρική υπολογισμού της αμοιβαίας πληροφορίας έχει κατάλληλα προσαρμοστεί και χρησιμοποιηθεί. (β) Κατασκευή δικτύου συσχέτισης γονιδίων/πρωτεϊνών (gene correlation network) – βασίζεται στην αξιολόγηση της δύναμης συσχέτισης (correlation strength) των προσδιορισμένων και αναγνωρισμένων γονιδιωματικών όρων στα διαθέσιμα έγγραφα. (γ) Κατηγοριοποίηση/Tαξινόμηση εγγράφων (κυρίως από την αποθήκη περιλήψεων PubMed) η οποία βασίζεται στην επινόηση και χρήση μιας μετρικής ταξινόμησης και την εισαγωγή σχετικής αλγοριθμικής διαδικασίας ταξινόμησης εγγράφων (texts classification) – η μετρική χρησιμοποιεί τη δύναμη συσχέτισης μεταξύ όρων που εμφανίζονται στα διαθέσιμα έγγραφα. Η αλγοριθμική διαδικασία στηρίζεται στην εκπαίδευση (training) του ταξινομητή εγγράφων με βάση έγγραφα-εκπαίδευσης από τη βάση/αποθήκη περιλήψεων PubMed και την εκ’ των προτέρων ταξινομησή τους (preassignment to classes) από σχετικά ερωτήματα στο PubMed, δηλ., θέτοντας το ερώτημα στο PubMed "καρκίνος του μαστού" τα ανακτημένα έγγραφα θεωρούνται ότι ανήκουν στην κατηγορία "καρκίνος-μαστού". (δ) Εκτεταμένα πειράματα για την επικύρωση (validation) και αξιολόγηση (evaluation) αποτελεσμάτων σε σχέση με την αξιοπιστία και ‘χρησιμότητα’ των συσχετίσεων που ανακαλύπτονται, καθώς και σε σχέση με την αξιοπιστία (ακρίβεια) κατάταξης και ταξινόμησης εγγράφων. (ε) Σχεδίαση και ανάπτυξη ενός εργαλείου – το σύστημα MineBioΤext, το οποίο ενσωματώνει όλες τις προαναφερθείσες τεχνικές και διαδικασίες με τις πρόσθετες λειτουργίες για τη δημιουργία του πεδίου-αναφοράς (domain of reference) σε ολοκληρωμένες διαδικασίες εξόρυξης γνώσης από βιβλιογραφικές αναφορές, π.χ., εκμετάλλευση πολλαπλών ονοματολογιών γονιδίων/πρωτεϊνών και ασθενειών, των συνωνυμών τους και των αντίστοιχων ελεύθερου-κειμένου περιγραφών τους, συλλογές εγγράφων, παραμετροποίηση διαδικασιών, οπτικοποίηση (visualization) αποτελεσμάτων κ.λπ. (EL)
Automatic knowledge discovery from biomedical free-texts appears as a necessity considering the growing of the massive amounts of biomedical scientific literature. A special problem that makes this task more challenging, and difficult as well, is the overabundance and diversity of the related genomic/proteomic ontologies and the respective gene and protein terminologies. Specifically, a genomic/proteomic term, e.g., gene, protein and their functional descriptions, as well as the diseases, are referred with many different ways in scientific documents regarding the organization, research context and the naming conventions that the authors are adherent to. The work reported in this thesis presents methods and tools for the efficient and reliable mining of biomedical literature, based on advanced text-mining techniques. Specifically it covers the following R&D challenges: (a) Identification of gene/protein--gene/protein and gene/protein--disease correlations following a text mining approach. The approach utilizes data-mining and statistical techniques, algorithms and metrics to deal with the following problems: (i) identification and recognition of terms in text-references – based on an appropriately devised and implemented algorithmic process that utilises the Trie data-structure; and (ii) ranking of terms and their (potential) relations or, links – based on the MIM entropic metric (Mutual Information Metric) to measure the respective terms’ association strength. (b) Construction of a genes association network – based on the assessed terms’ (genes, proteins, diseases) association strengths. (c) Categorization / Classification of textreferences (mainly from the PubMed abstracts repository) into class categories utilizing an appropriately devised classification metric and procedure, and using the most descriptive (i.e, strong) associations between terms. Pre-assignment of text-references (i.e., PubMed abstract) to categories is performed by posting respective queries to PubMed, i.e., querying PubMed with “breast cancer” the retrieved documents are considered to belong to the “breast cancer” category. (d) Assessment on the texts’ categorization / classification results – based on respective PubMed abstract collections, their precategorization and careful experimental set-up to measure prediction results, i.e., accuracy and precision. (e) Design and development of a tool – the MineBioText (Mining Biomedical Texts), that encompasses all of the aforementioned operations with extra functionalities for setting-up the domain of reference and study, e.g., gene/protein and disease names, their synonyms and free-text descriptions, text collections, parameterization of build-in algorithmic processes etc. (EN)

text
Τύπος Εργασίας--Μεταπτυχιακές εργασίες ειδίκευσης


2006-07-19
2006-04-01


Σχολή/Τμήμα--Σχολή Θετικών και Τεχνολογικών Επιστημών--Τμήμα Επιστήμης Υπολογιστών--Μεταπτυχιακές εργασίες ειδίκευσης




*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.