Στατιστικές μέθοδοι πολυμεταβλητής ανάλυσης δεδομένων από βιολογικά κείμενα και οντολογίες

 
δείτε την πρωτότυπη σελίδα τεκμηρίου
στον ιστότοπο του αποθετηρίου του φορέα για περισσότερες πληροφορίες και για να δείτε όλα τα ψηφιακά αρχεία του τεκμηρίου*
κοινοποιήστε το τεκμήριο




2008 (EL)
Statistical multivariate methods of analysis of data from biological texts and ontodologies
Στατιστικές μέθοδοι πολυμεταβλητής ανάλυσης δεδομένων από βιολογικά κείμενα και οντολογίες

Θεοδοσίου, Θεοδόσιος Γ.

Η διατριβή εντάσσεται στο γενικότερο χώρο της εξόρυξης και ανάλυσης πληροφοριών από βιολογικά κείμενα με χρήση στατιστικών μεθοδολογιών και αλγόριθμων. Ειδικότερα η έρευνα κινείται σε 3 άξονες, α)στην ανάθεση ενός όρου γονιδιακής οντολογίας σε ένα κείμενο με βάση μεθόδους και μοντέλα κατάταξης, όπως η Linear Discriminant Analysis LDA, Support Vector machines, SVM & H Multinomial Logistic Regressions MLR. H LDA αποδείχθηκε αποτελεσματικότερη, β)χρήση της Non Linear Canonical Correlation Analysis, NLCCA, για ποσοτικοποίηση της μη γραμμικής συσχέτισης μεταξύ των λέξεων των κειμένων, των όρων της γονιδιακής οντολογίας και των όρων της Medical Subject headings, MESH,Οντολογίας. Αντικατάσταση των τριών συνόλων με ένα νέο λιγότερων μεταβλητών, γ)μεθοδολογία ομαδοποίησης κειμένων με βάση το στοχαστικό αλγόριθμο Markov Clustering Algorithm, MCL και παράσταση των αποτελεσμάτων σε διαδραστικό 2Δ ή 3Δ περιβάλλον
The research involves text mining of biological texts using statistical methods of classification and clustering. The classification involves the use of Linear Discriminant Analysis, LDA, Support Vector Machines, SVA and Multinomial Logistic Regression, MLR, LDA was found to perform the best. Non Linear Canonical Correlation, Analysis, NLCCA was also used in order to describe the information of the words of the texts, their gene ontology and Medical Subject Headings with only one dataset, with reduced number of variables. The clustering was based on a stohastic algorithm, namely Markov clustering(MCL) and represented the results to the end user in a 2d or 3d environment

PhD Thesis / Διδακτορική Διατριβή
info:eu-repo/semantics/doctoralThesis

Statistical multivariate methods
Βιολογικές οντολογίες
Biological texts
Data mining
Clustering
Εξόρυξη δεδομένων
Στατιστική πολυμεταβλητή ανάλυση
Biological ontologies
Τεχνητή νοημοσύνη
Classification
Βιολογικά κείμενα
Artificial intelligence
Ομαδοποίηση
Κατηγοριοποίηση

Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης (EL)
Aristotle University of Thessaloniki (EN)

Ελληνική γλώσσα
Αγγλική γλώσσα

2008
2009-06-21T21:00:00Z


Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης, Σχολή Θετικών Επιστημών, Τμήμα Πληροφορικής

This record is part of 'IKEE', the Institutional Repository of Aristotle University of Thessaloniki's Library and Information Centre found at http://ikee.lib.auth.gr. Unless otherwise stated above, the record metadata were created by and belong to Aristotle University of Thessaloniki Library, Greece and are made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). Unless otherwise stated in the record, the content and copyright of files and fulltext documents belong to their respective authors. Out-of-copyright content that was digitized, converted, processed, modified, etc by AUTh Library, is made available to the public under Creative Commons Attribution-ShareAlike 4.0 International license (http://creativecommons.org/licenses/by-sa/4.0). You are kindly requested to make a reference to AUTh Library and the URL of the record containing the resource whenever you make use of this material.
info:eu-repo/semantics/openAccess



*Η εύρυθμη και αδιάλειπτη λειτουργία των διαδικτυακών διευθύνσεων των συλλογών (ψηφιακό αρχείο, καρτέλα τεκμηρίου στο αποθετήριο) είναι αποκλειστική ευθύνη των αντίστοιχων Φορέων περιεχομένου.